5. 生成式对抗网络 GAN

5.1 GAN 的基本原理 *****

1. AE, VAE, GAN 的联系与区别 ***

  • AE:压缩(Encoder)+ 解压(Decoder)

    • 重构误差:只会模仿,不会创造

  • VAE:加入约束,隐向量后验分布 q(zx)q(z|x) 接近特定分布

    • 重构误差 + 隐变量空间约束:随机生成新的样本

      • 均值:相当于 AE 中的 Encoder

      • 标准差:相当于为重构过程增加噪声

  • GAN:minGmaxDV(G,D)=ExpdatalogD(x)+Ezpz(z)log(1D(G(z)))\min_G\max_D V(G,D)=\mathbb E_{x\sim p_{data}} \log D(x)+\mathbb E_{z\sim p_z(z)} \log(1-D(G(z)))

    • VAE 同步训练,GAN 交替优化

    • GAN 可能 模式坍塌、训练不稳定

2. 原始 GAN 理论问题

  • 优化饱和:早期 G 很差,D 容易识别,使得回传给 G 的梯度小

  • 模式坍缩:缺乏多样性,倾向于模仿真实样本数据

3. 原始 GAN 实际问题

  • 理论上收敛性,不能保证实际收敛(非凸)

  • 局部纳什均衡,模式坍塌

  • 缺乏评价方法和准则:训练收敛,生成好坏

5.2 GAN 的改进 ****

  • 目标函数

    • f-散度:交叉熵(忽略高置信)、MSE(靠近决策边界)

    • 积分概率度量 IPM:Wasserstein、均值特征匹配

    • 辅助项:重建目标(图像语义)、分类目标(半监督 / 风格迁移)

  • 模型结构:堆叠层次化结构、逐渐增加网络层数

  • 训练过程:特征匹配技术、单边标签平滑、谱归一化

5.3 GAN 的效果评估 *

Inception:使用 ImageNet 上与训练好的 Inception-v3 分类网络

  • IS(Inception Score):生成样本的质量、多样性

  • FID(Frechet Inception Distance):倒数第二层特征图,比较真实/生成的均值和方差

5.4 GAN 的应用 ****

1. 高分辨率图像

  • SNGAN:谱归一化、Hinge 损失

  • SAGAN:自注意力机制

  • BigGAN:增大参数规模,噪声嵌入+截断技巧

2. 图像 - 图像 翻译

  • 超分辨率重建:对抗损失 + 感知域损失(颜色 / 结构 / 形态)

  • 图像补全:对抗损失 确保真实性,或 感知域损失 / 重构损失

  • 图像风格迁移:主流是无监督

3. CycleGAN 图像风格迁移

  • 生成器 * 2 + 判别器 * 2

4. 半监督学习

  • 半监督学习方法:低密度分离方法、生成模型、平滑假设

  • GAN 半监督学习 LD=ExpdatalogD(x)+Ezpz(z)log(1D(G(z)))E(x,y)pdata(x,y)logp(yx,y<K+1)\mathcal L_D=\mathbb E_{x\sim p_{data}} \log D(x)+\mathbb E_{z\sim p_z(z)} \log(1-D(G(z)))-\mathbb E_{(x,y)\sim p_{data}(x,y)} \log p(y|x,y<K+1)

    • 判别任务:判别图像 真 / 假

    • 分类任务:真样本的标签信息,e.g. 交叉熵

    • 数据:有标签 + 无标签 + 生成数据

Last updated