当前位置：首页 > news >正文

【GAN】生成对抗网络Generative Adversarial Networks理解摘要

news 2025/7/6 23:44:56

【Pytorch】生成对抗网络实战_pytorch生成对抗网络-CSDN博客

【损失函数】KL散度与交叉熵理解-CSDN博客

[1406.2661] Generative Adversarial Networks (arxiv.org)

GAN本质是对抗或者说竞争，通过生成器和鉴别器的竞争获取有效地结果，换句话说，GAN是在养蛊，大量数据和批次的训练最终培养出最合适的蛊王，而不合适的死于对抗。

GAN的主要思想

GAN的网络结构

GAN的损失函数

优化判别器

优化生成器

GAN的主要思想

GAN模型的思想比较简单，其先假设一个生成图片的神经网络，称为生成器，设为G，它的作用是将随机分布的噪声映射到图像域，简单来说就是神经网络的输入是随机生成的噪声，然后输出是需要的图像；又假设了一个判断图像是真实的图像还是由生成器生成图像的神经网络，称为鉴别器，设为D，它的作用是判断一副图像是真实的还是由生成器生成的，简单来讲就是输入是一副图像，然后输出是0或1，0表示该图像是由生成器生成的，1表示它是真实的图像。

GAN的网络结构

中 G 表示生成器，D 表示判别器，D(x) 输出 [0,1] 之间的数，表示判别器 D 判断数据 x 是真实样本的概率。D(x) 的 label 是 0 和 1，0 表示生成器生成的虚假数据 Xfeak，1 表示从数据集中采样的真实样本 Xreal。GAN 训练的直接目标有两个:

• 使生成器 G 能够尽可能生成贴近真实样本的虚假数据

• 使判别器 D 能尽量好地区分真实样本和虚假数据

GAN的损失函数

真实数据分布是 $p_{data}$ ，随机噪声的分布是 $p_z$ ，GAN 的损失函数为：

$\operatorname*{min}_{G}\operatorname*{max}_{D}V(D,G)=\operatorname{E}_{x\sim p_{data}(x)}[\log D(x)]+\operatorname{E}_{z\sim p_{z}(z)}[\log(1-D(G(z)))]$

其中 D(x) 表示判别器 D 判定 x 是真实样本的概率，D(G(z)) 表示 D 判定 G(z) 是真实样本的概率。

如果分类器 G 的性能好，在判别器 D 的性能固定的情况下;G(z) 贴近真实样本的概率较高，则 V(D,G) 更小；如果判别器 D 的性能好，在分类器 G 的性能固定的情况下;则 D(x) 更大，D(G(z)) 更小，则 V(D,G) 更大。

因此生成器 G 的优化目标是 ${min}_{G}\operatorname*V(D,G)$ ，而判别器 D 的优化目标是 ${max}_{D}V(D,G)$ 。因此此 G 和 D 产生了对抗关系，这也就是生成对抗网络名字的由来。网络希望找到一个 V (G, D)，使其对于生成器来说最小而对于判别器来说最大。

由于 GAN 需要同时训练生成器和判别器，在实际训练中，GAN 先固定生成器，求出最优的判别器 D∗；然后在判别器固定为 D∗ 时求出最优的生成器 G∗。

优化判别器

先假设生成器 G 固定，计算最优的判别器 D∗

$\operatorname*{max}_{D}V(D,G)=\operatorname{E}_{x\sim p_{data}(x)}[\log D(x)]+\operatorname{E}_{z\sim p_{z}(z)}[\log(1-D(G(z)))]$

$x\sim p_{data}(x)$ 为x 服从数据集数据的分布，x 是训练集里的图像数据，即真实的图像。

$D(x)$ 为图像数据输入鉴别器D后对应的输出，是一个处于0~1之间的数。

$z\sim p_{z}(z)$ ，为z服从随机噪声的分布，z是随机生成的噪声数据，即非真噪声。

$G(z)$ 为z输入生成器G后对应的输出，也就是生成器根据噪声生成的（假）图像。

$D(G(z))$ 为（假）图像输入鉴别器D后对应的输出，是一个处于0~1之间的数。

这一步的目的就是优化鉴别器D使得上面这两个平均最大，实际上就是使得 $log(D(x))$ 尽可能大，也就是 $D(x)$ 尽可能大，实际意义就是对于真实的图像数据输入，鉴别器应使得输出尽可能接近1，即把它判别为真，然后 $log(1-D(G(z)))$ 尽可能大，也就是 $1-D(G(z))$ 尽可能大，也就是 $D(G(z))$ 尽可能小，实际意义就是对于生成器生成的图像数据输入，鉴别器应使得输出尽可能接近0，即把它判断为假。可以从更严谨的公式推导说明这一点：

$\begin{aligned} V(G,D)& =E_{x\sim p_{data}}[logD(x)]+E_{z\sim p_z}[log(1-D(G(z)))] \\ &=E_{x\thicksim p_{data}}[logD(x)]+E_{x\thicksim p_g}[log(1-D(x))] \\ &=\int p_{data}(x)logD(x)dx+\int p_g(x)log(1-D(x))dx \\ &=\int[ p_{data}(x)logD(x)+p_g(x)log(1-D(x)) ]dx \end{aligned}$

第二行进行了变量替换 $x = G(z)^2$ ，且 $p_g$ 和 $p_{data}$ 是两个不同的分布。目标是找到使积分项 $f(x)=p_{data}(x)logD(x)+p_g(x)log(1-D(x))$ 最大的 D∗，且 D∗ 应该与 x 无关，而是与 $p_g$ 和 $p_{data}$ 相关。由于 $p_{data}$ 已知，且我们假设 G 固定，则 $p_g$ 也是固定的，所以只需使 f(x) 对 D(x) 求导等于 0 即可求出 D∗。即

$\frac{df(x)}{dD(x)}=\frac{p_{data}(x)}{D(x)}-\frac{p_g(x)}{1-D(x)}=0$

从而解得

$D^*=\frac{p_{data}(x)}{p_{data}(x)+p_g(x)}$

从严谨的公式推导层面说明，GAN 的最终目标是训练出一个性能优异的生成器，当生成器生成的数据的分布 $p_g$ 与真实数据的分布 $p_{data}$ 非常接近时， $D^\ast =\frac{1}{2}$ ，即判别器无法判别生成器生成的数据的真伪。

优化生成器

基于最优的判别器 D∗，计算最优的判别器 G∗

$\operatorname*{min}_{G}V(D,G)=\operatorname{E}_{x\sim p_{data}(x)}[\log D(x)]+\operatorname{E}_{z\sim p_{z}(z)}[\log(1-D(G(z)))]$

优化生成器G，即使得 $log(1-D(G(z)))$ 尽可能小，也就是 $D(G(z))$ 尽可能大，实际意义就是对于生成器G生成的图像判别器判别结果尽可能接近1，即尽可能接近真实图像。

将D∗ 代入V(G,D)可以得到

$\begin{aligned} V(G,D^{*})& =\int p_{data}(x)logD^*(x)dx+\int p_g(x)log(1-D^*(x))dx \\ &=\int p_{data}(x)log\frac{p_{data}(x)}{p_{data}(x)+p_g(x)}dx+\int p_g(x)log\frac{p_g(x)}{p_{data}(x)+p_g(x)}dx \\ &=\int p_{data}(x)log\frac{p_{data}(x)}{\frac{p_{data}(x)+p_g(x)}2}dx+\int p_g(x)log\frac{p_g(x)}{\frac{p_{data}(x)+p_g(x)}2}dx-log4 \\ &=D_{KL}[p_{data}(x)||\frac{p_{data}(x)+p_g(x)}2]+D_{KL}[p_g(x)||\frac{p_{data}(x)+p_g(x)}2]-log4 \\ &=2\cdot D_{JS}[p_{data}(x)||p_g(x)]-log4 \\ &\geq-log4 \end{aligned}$

其中 $D_{JS}$ 为JS散度，全称为Jensen-Shannon散度，是一种衡量两个概率分布相似程度的方法。JS 散度 $D_{JS}$ 是基于 KL 散度计算的，它与 KL 散度一样具有非负性；但与 KL 散度不同的是，JS 散度具有对称性。关于KL散度，可以参照【损失函数】KL散度与交叉熵理解-CSDN博客

定义 $M (x) = \frac{1}{2} (P (x) + Q(x))$ ，从而两个分布 P (x) 和 Q(x) 之间的 JS 散度为:

$\begin{aligned} D_{JS}[P(x)||Q(x)]& =\frac12D_{KL}[P(x)||M(x)]+\frac12D_{KL}[Q(x)||M(x)] \\ &=\frac12\int P(x)\left.log\frac{P(x)}{M(x)}dx+\frac12\int Q(x)\right.log\frac{Q(x)}{M(x)}dx \\ &=\frac12\int P(x)\left.log\frac{P(x)}{\frac{P(x)+Q(x)}2}dx+\frac12\int Q(x)\right.log\frac{Q(x)}{\frac{P(x)+Q(x)}2}dx \\ &\in[0,1] \end{aligned}$