Image Generation - [CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 《Notes of CV》

Title
Information
Summary
Contribution(s)
Problem Statement
Method(s)
Evaluation
Conclusion
Notes
Reference

Title

Copy and Paste GAN: Face Hallucination from Shaded Thumbnails

Information

论文地址：https://arxiv.org/abs/2002.10650
github地址：

Summary

作者提出一个网络可以端到端地实现人脸超分和光照均衡。这个网络提出了internal CPnet和external CPnet，通过增强人脸细节、学习外部引导图光照和数据增强生成人脸图像对实现较

Contribution(s)

提出了CPGAN的框架，可端到端地同时解决face hallucination和illumination compensation，优化方法有传统的face hallucination loss和新的illlumination compensation loss。
引入内部的CPnet增强脸部细节，粗糙地实现光照均一化，为接下来的上采样和光照补偿打基础
用外部的CPnet通过学习外部的HR face实现光照补偿。这里并不需要有着同样光照条件的数据集
一个新的数据增强方法，Random Adaptive Instance Normalization(RaIN)，用来生成NI-LR和UI-HR人脸图像对。

创新点：

采样了一个UI-HR face作为引导图
提出了光照补偿Loss

Problem Statement
目前的方法可大致分为三类。

现有的face hallucination techniques受到不均匀或低光照的影响，脸部细节会模糊。
一些侧重解决人脸光照的方法通常不适用于face thumbnails，因为无法准确检测人脸关键点。
一些Image-to-Image的方法因为光照条件的不一致不具有普适性。

[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图1
上图的f和g均使用了光照均一化和face hallucination，存在伪影。为此，本文致力于用一个通用网络在未归一化的低光照下实现face hallucination，即从Non-uniform low illumination, Low resolution face(NI-LR face)生成Uniform illumination, High Resolution face(UI-HR face)

Method(s)

整体结构

[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图2
整个CPGAN由以下组成：internal CPnet, external CPnets, spatial transformer networks(STNs，这个是前人的工作，文献14), deconvolutional layers, stacked hourglass module和discriminator network。
从左下角看起，输入一张NI-LR face图像（低分辨率光照也不好的图像），送入internal CPnet，目标是增强脸部细节，粗糙地均匀光照。
接着，作者希望采用一个外部的UI-HR face图像（高分辨率光照均匀的图像）作为引导。先是采用Encoder来提取引导图的特征，随后为了避免不对齐的情况出现，输入图像和引导图像的信息均采用STNs对齐。受文献[21]的启发，之后使用stacked hourglass network来估计脸部关键点的热力图以保存脸部结构。

Internal CPnet

[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图3
主要目标是增强细节，粗糙地实现光照均匀。图像进来后先是一个convolution layer，一个Internal Copy module，一个paste block。而Internal Copy module中具体又包含，residual block, channel-attention(CA) module(CA是为了增强高频信息，即人脸细节特征的)，copy block。
copy block的结构如下图，CA模块的输出既是输入又是引导图。
[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图4
来分析一波这个Internal Copy module的结构。输入的特征图是用来衡量NI-LR face的频带特征的，由脸部的低频信息组成（蓝色）。经过Internal Copy module后，输出的特征集中在高频信息上（红色），覆盖所有频带。因此，作者将这个模块命名为’copy’，因为它的本质操作是将高频特征拷贝到低频的地方，从而实现特征增强，为接下来的脸部细节上采样和光照补偿打基础。

External CPnet

作者采用了多个external CPnets和反卷积层来补偿光照和上采样，实现低分辨率到高分辨率的转换。external CPnet的结构如下图：
[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图5

和Internal CPnet中的copy block一样，external CPnet也要执行copy block。这里的引导特征来自外部引导的UI-HR图像，输入特征来自NI-LR图像。和先归一化再计算。拷贝到的特征可以看作引导特征的加权和，它的实际计算公式如下：
[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图7

其中， [CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图8 是所有位置的输出和。是基于F的通道归一化。都是学习得到的。
这个模块可以灵活地将引导特征的光照模块融合进输入特征中。

Loss Function

loss = Illumination compensation loss(Lic) + intensity similarity loss(L_mse) + identity similarity loss(L_id) + structure similarity loss(L_h) + adversarial loss(L_adv)
![](https://cdn.nlark.com/yuque/__latex/179ecb91946313c7fff52e6eaa4982d9.svg#card=math&code=L%7BG%7D%3D%5Calpha%20L%7Bm%20s%20e%7D%2B%5Cbeta%20L%7Bi%20d%7D%2B%5Cgamma%20L%7Bh%7D%2B%5Cchi%20L%7Bi%20c%7D%2B%5Ckappa%20L%7Ba%20d%20v%7D&height=16&width=274)
在文章中只介绍了光照loss，是来自AdaIN的style loss(文献[12])启发。最基本的思想是在隐空间中，重建的UI-HR图像的光照特征和引导的UI-HR图像接近。
![](https://cdn.nlark.com/yuque/__latex/090ee163d150f7595571cc2413fb8fef.svg#card=math&code=%5Cbegin%7Baligned%7D%0AL%7Bi%20c%7D%3D%26%20%5Cmathbb%7BE%7D%7B%5Cleft%28%5Chat%7Bh%7D%7Bi%7D%2C%20g%7Bi%7D%5Cright%29%20%5Csim%20p%28%5Chat%7Bh%7D%2C%20g%29%7D%5Cleft%5C%7B%5Csum%7Bj%3D1%7D%5E%7BL%7D%5Cleft%5C%7C%5Cmu%5Cleft%28%5Cvarphi%7Bj%7D%5Cleft%28%5Chat%7Bh%7D%7Bi%7D%5Cright%29%5Cright%29-%5Cmu%5Cleft%28%5Cvarphi%7Bj%7D%5Cleft%28g%7Bi%7D%5Cright%29%5Cright%29%5Cright%5C%7C%7B2%7D%5Cright.%5C%5C%0A%26%5Cleft.%2B%5Csum%7Bj%3D1%7D%5E%7BL%7D%5Cleft%5C%7C%5Csigma%5Cleft%28%5Cvarphi%7Bj%7D%5Cleft%28%5Chat%7Bh%7D%7Bi%7D%5Cright%29%5Cright%29-%5Csigma%5Cleft%28%5Cvarphi%7Bj%7D%5Cleft%28g%7Bi%7D%5Cright%29%5Cright%29%5Cright%5C%7C_%7B2%7D%5Cright%5C%7D%0A%5Cend%7Baligned%7D&height=99&width=345)
g_i 引导的UI-HR图，h_i生成的UI-HR图，p(h, g)代表联合分布。表示预训练VGG-19的relu1-1, relu2-1, relu3-1, relu4-1层。 [CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图11 和表示每个特征通道的均值和方差。

Data augmentation

NI/UI图像对的数量有限，作者量身定制了一个Random Adaptive Instance Normalization(RaIN) model实现实时的光照风格迁移，实现数据增强。它的结构如下图所示。
[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图13
如上图所示，RaIN model采用的encoder-decoder结构，encoder前几层到relu4-1用的VGG-19的固定权重。接着，用VAE使得NI人脸图像的特征统计有无限多的可能假设(?)，AdaIN层用来对齐UI和NI脸的特征统计。
训练的时候，输入一张内容图像UI face，一张风格图像NI face。VAE对style feature编码出所有可能的变体。接着通过 AdaIN层，让content特征和style特征对齐，生成特征t。接着用一个decoder将t重新映射到图像，生成风格化后的图像Ics。
![](https://cdn.nlark.com/yuque/__latex/346588e5f078060693db5cd37071eb62.svg#card=math&code=t%3D%5Coperatorname%7BAdaIN%7D%5Cleft%28I%7Bc%7D%2C%20I%7Bs%7D%5Cright%29%3D%5Cwidetilde%7B%5Csigma%5Cleft%28f%7Bs%7D%5Cright%29%7D%5Cleft%28%5Cfrac%7Bf%7Bc%7D-%5Cmu%5Cleft%28f%7Bc%7D%5Cright%29%7D%7B%5Csigma%5Cleft%28f%7Bc%7D%5Cright%29%7D%5Cright%29%2B%5Cwidetilde%7B%5Cmu%5Cleft%28f%7Bs%7D%5Cright%29%7D&height=41&width=322)
整个设置基于文献[12]进行了fine-tune，为了得到不同的光照条件，作者给content image加入了随机噪声，图像生成的过程如下图所示。
[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图14

Evaluation

作者在三种场景下进行Qualitative and quantitative的评价。三种场景包括FH(Face hallucination)、IN+FH(Illumination compensation + Face hallucination)、FH+IN(Face hallucination + illumination compensation)。所有的方法都用本文数据集进行了重新训练。

Datasets

Multi-PIE + CelebFaces Attributes(CelebA)

Qualitative comparison

和其它方法比较
Ablation实验

我看g还挺清楚的，但是作者说g会有ghosting artifacts？作者还说有了adv loss图像会更锐利更真实。作者这里的g和h是图放反了吗

Quantitative comparison
指标：(average peak signal-to-noise ration)PSNR，(structural similarity)SSIM

真实表现

Conclusion
internal CPnet能增强细节
external CPnet准确学习光照特征
L_id, L_h会让脸部细节更清晰，L_adv会减少伪影更真实。

Notes
face hallucination methods：一个新的名词，其实是接触过的意思，表示根据一张低分辨率输入生成一张高质量的人脸图像，本质上是超分。

Reference
face hallucination techniques[33, 42, 4, 5, 30, 37, 32, 38, 36, 34]，34是SOTA