5. 生成式对抗网络 GAN

Previous4. 生成模型 Next6. 强化学习 RL

Last updated 3 years ago

5. 生成式对抗网络 GAN

5.1 GAN 的基本原理 *****

1. AE, VAE, GAN 的联系与区别 ***

AE：压缩（Encoder）+ 解压（Decoder）
- 重构误差：只会模仿，不会创造
VAE：加入约束，隐向量后验分布 $q(z|x)$ 接近特定分布
- 重构误差 + 隐变量空间约束：随机生成新的样本
  - 均值：相当于 AE 中的 Encoder
  - 标准差：相当于为重构过程增加噪声
GAN： $\min_G\max_D V(G,D)=\mathbb E_{x\sim p_{data}} \log D(x)+\mathbb E_{z\sim p_z(z)} \log(1-D(G(z)))$
- VAE 同步训练，GAN 交替优化
- GAN 可能模式坍塌、训练不稳定

2. 原始 GAN 理论问题

优化饱和：早期 G 很差，D 容易识别，使得回传给 G 的梯度小
模式坍缩：缺乏多样性，倾向于模仿真实样本数据

3. 原始 GAN 实际问题

理论上收敛性，不能保证实际收敛（非凸）
局部纳什均衡，模式坍塌
缺乏评价方法和准则：训练收敛，生成好坏

5.2 GAN 的改进 ****

目标函数
- f-散度：交叉熵（忽略高置信）、MSE（靠近决策边界）
- 积分概率度量 IPM：Wasserstein、均值特征匹配
- 辅助项：重建目标（图像语义）、分类目标（半监督 / 风格迁移）
模型结构：堆叠层次化结构、逐渐增加网络层数
训练过程：特征匹配技术、单边标签平滑、谱归一化

5.3 GAN 的效果评估 *

Inception：使用 ImageNet 上与训练好的 Inception-v3 分类网络

IS（Inception Score）：生成样本的质量、多样性
FID（Frechet Inception Distance）：倒数第二层特征图，比较真实/生成的均值和方差

5.4 GAN 的应用 ****

1. 高分辨率图像

SNGAN：谱归一化、Hinge 损失
SAGAN：自注意力机制
BigGAN：增大参数规模，噪声嵌入+截断技巧

2. 图像 - 图像翻译

超分辨率重建：对抗损失 + 感知域损失（颜色 / 结构 / 形态）
图像补全：对抗损失确保真实性，或感知域损失 / 重构损失
图像风格迁移：主流是无监督

3. CycleGAN 图像风格迁移

生成器 * 2 + 判别器 * 2

4. 半监督学习

半监督学习方法：低密度分离方法、生成模型、平滑假设
- 判别任务：判别图像真 / 假
- 分类任务：真样本的标签信息，e.g. 交叉熵
- 数据：有标签 + 无标签 + 生成数据

Previous4. 生成模型 Next6. 强化学习 RL

Last updated 3 years ago

5.1 GAN 的基本原理 *****

1. AE, VAE, GAN 的联系与区别 ***

AE：压缩（Encoder）+ 解压（Decoder）
- 重构误差：只会模仿，不会创造
VAE：加入约束，隐向量后验分布 $q(z|x)$ 接近特定分布
- 重构误差 + 隐变量空间约束：随机生成新的样本
  - 均值：相当于 AE 中的 Encoder
  - 标准差：相当于为重构过程增加噪声
GAN： $\min_G\max_D V(G,D)=\mathbb E_{x\sim p_{data}} \log D(x)+\mathbb E_{z\sim p_z(z)} \log(1-D(G(z)))$
- VAE 同步训练，GAN 交替优化
- GAN 可能模式坍塌、训练不稳定

2. 原始 GAN 理论问题

优化饱和：早期 G 很差，D 容易识别，使得回传给 G 的梯度小
模式坍缩：缺乏多样性，倾向于模仿真实样本数据

3. 原始 GAN 实际问题

理论上收敛性，不能保证实际收敛（非凸）
局部纳什均衡，模式坍塌
缺乏评价方法和准则：训练收敛，生成好坏

5.2 GAN 的改进 ****

目标函数
- f-散度：交叉熵（忽略高置信）、MSE（靠近决策边界）
- 积分概率度量 IPM：Wasserstein、均值特征匹配
- 辅助项：重建目标（图像语义）、分类目标（半监督 / 风格迁移）
模型结构：堆叠层次化结构、逐渐增加网络层数
训练过程：特征匹配技术、单边标签平滑、谱归一化

5.3 GAN 的效果评估 *

Inception：使用 ImageNet 上与训练好的 Inception-v3 分类网络

IS（Inception Score）：生成样本的质量、多样性
FID（Frechet Inception Distance）：倒数第二层特征图，比较真实/生成的均值和方差

5.4 GAN 的应用 ****

1. 高分辨率图像

SNGAN：谱归一化、Hinge 损失
SAGAN：自注意力机制
BigGAN：增大参数规模，噪声嵌入+截断技巧

2. 图像 - 图像翻译

超分辨率重建：对抗损失 + 感知域损失（颜色 / 结构 / 形态）
图像补全：对抗损失确保真实性，或感知域损失 / 重构损失
图像风格迁移：主流是无监督

3. CycleGAN 图像风格迁移

生成器 * 2 + 判别器 * 2

4. 半监督学习

半监督学习方法：低密度分离方法、生成模型、平滑假设
GAN 半监督学习 $\mathcal L_D=\mathbb E_{x\sim p_{data}} \log D(x)+\mathbb E_{z\sim p_z(z)} \log(1-D(G(z)))-\mathbb E_{(x,y)\sim p_{data}(x,y)} \log p(y|x,y<K+1)$
- 判别任务：判别图像真 / 假
- 分类任务：真样本的标签信息，e.g. 交叉熵
- 数据：有标签 + 无标签 + 生成数据

GAN 半监督学习 $\mathcal L_D=\mathbb E_{x\sim p_{data}} \log D(x)+\mathbb E_{z\sim p_z(z)} \log(1-D(G(z)))-\mathbb E_{(x,y)\sim p_{data}(x,y)} \log p(y|x,y<K+1)$

5.1 GAN 的基本原理 *****

1. AE, VAE, GAN 的联系与区别 ***

2. 原始 GAN 理论问题

3. 原始 GAN 实际问题

5.2 GAN 的改进 ****

5.3 GAN 的效果评估 *

5.4 GAN 的应用 ****

1. 高分辨率图像

2. 图像 - 图像 翻译

3. CycleGAN 图像风格迁移

4. 半监督学习

5.1 GAN 的基本原理 *****

1. AE, VAE, GAN 的联系与区别 ***

2. 原始 GAN 理论问题

3. 原始 GAN 实际问题

5.2 GAN 的改进 ****

5.3 GAN 的效果评估 *

5.4 GAN 的应用 ****

1. 高分辨率图像

2. 图像 - 图像 翻译

3. CycleGAN 图像风格迁移

4. 半监督学习

2. 图像 - 图像翻译

2. 图像 - 图像翻译