pix2pix

浏览 137 扫码分享 2023-11-22 00:13:50

论文导读
- 1. 研究背景
- 2. 研究意义
论文泛读
论文总结

研究意义:

pix2pix在图像翻译任务上提供了通用框架
使GAN从此统治了各类图像翻译任务,促使各类图像翻译任务的效果逐渐接近了实用级别.

论文导读

补充: CV CG DIP三套教材

1. 研究背景

像素损失: 对锐度不敏感感知损失: 用imagenet数据集的预训练模型的特征来表示损失, 比如vgg loss或者resnet loss

补充: 数据集

2. 研究意义

论文泛读

1. Introduction

目的: 在图像翻译任务上(如超分, 风格迁移), 提供一个通用的解决方案(同时学习映射和损失)
模型结构: 使用主流的CNN;
模型损失: 打造通用的结构性的loss, 即可学习的损失, 在判别器上给出损失, 在理论上, 能对任何结构上的区别给出惩罚.

2. relative
更着重于结构性损失, 而且利用CGAN来作为可学习的损失.
CGAN之前被用在其他领域, 用于针对特定的任务. 但现在, 我们的框架是通用的.
生成模型结构基于”U-Net” (读者注:广泛用于语义分割).
判别模型(读者注: 可学习的损失)被称为一个条件的”PatchGAN”, 这里的Patch是指输入图片的大小, 采用patch的目的是capture local style statistics.
3. Method
简单讲了GAN的原理

论文总结

1. 目标函数

Gan loss

具体而言,是基于CGAN以及Patch大小为输入, 被作者称为Patch-GAN(注: 见下Patch-GAN部分)

为何推断时也使用dropout

原文给出: 生成器能学习忽略噪声内部的差异, 故并不能依据噪声来让生成器产生多样性; 鉴于此, 作者认为训练和验证阶段均使用dropout能激发生成器的多样性

2. 模型结构与训练参数

Encoder-decoder与Unet对比

Unet (with skip connection)

可见上面的网络结构. 为保证低级特征不会丢失, 基于”U-Net”利用了concat连接了各个层次的特征. 类似的思想在RDN也用到了 (注: RDN用于图像超分任务)

另外, 以上的做法是基于作者的先验假设: 虽然输入和输出的看起来不同, 但是有潜在结构相似性.

PatchGAN在原论文中, 也被称为是Markovian discriminator, 其原因是: 一个先验的假设, 像素之间的额距离大于patch的大小N时, 像素之间是相互独立的, 图像可被建模为马尔科夫随机场, 如此可认为PatchGAN处理了纹理/style损失的计算.

采用原始GAN损失的替换技巧, 目的是: 在训练初期有更强的学习梯度…(读者注: 初期生成器太差了,所以D(…)接近0)
“G和D的训练次数为1:1,训练速度为2:1” 的实现是: 将判别器的损失人为地除以2.0
instance norm仅在图像内部进行norm, 其目的是: 生成器的多样性

3. 评价方式

4. 目标函数

为什么L1loss和CGANloss的加权比例为100:1?

为了保证两种loss在同一个数量级上.

为什么单独使用loss呢?

仅采用L1 loss生成的图片比较模糊,光谱偏浅灰色仅采用CGANloss生成的图片比较尖锐,光谱更真实

4.2 理论证明

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录