Title
Copy and Paste GAN: Face Hallucination from Shaded Thumbnails
Information
论文地址:https://arxiv.org/abs/2002.10650
github地址:
Summary
作者提出一个网络可以端到端地实现人脸超分和光照均衡。这个网络提出了internal CPnet和external CPnet,通过增强人脸细节、学习外部引导图光照和数据增强生成人脸图像对实现较
Contribution(s)
- 提出了CPGAN的框架,可端到端地同时解决face hallucination和illumination compensation,优化方法有传统的face hallucination loss和新的illlumination compensation loss。
- 引入内部的CPnet增强脸部细节,粗糙地实现光照均一化,为接下来的上采样和光照补偿打基础
- 用外部的CPnet通过学习外部的HR face实现光照补偿。这里并不需要有着同样光照条件的数据集
- 一个新的数据增强方法,Random Adaptive Instance Normalization(RaIN),用来生成NI-LR和UI-HR人脸图像对。
创新点:
- 现有的face hallucination techniques受到不均匀或低光照的影响,脸部细节会模糊。
- 一些侧重解决人脸光照的方法通常不适用于face thumbnails,因为无法准确检测人脸关键点。
- 一些Image-to-Image的方法因为光照条件的不一致不具有普适性。
上图的f和g均使用了光照均一化和face hallucination,存在伪影。为此,本文致力于用一个通用网络在未归一化的低光照下实现face hallucination,即从Non-uniform low illumination, Low resolution face(NI-LR face)生成Uniform illumination, High Resolution face(UI-HR face)
Method(s)
整体结构
整个CPGAN由以下组成:internal CPnet, external CPnets, spatial transformer networks(STNs,这个是前人的工作,文献14), deconvolutional layers, stacked hourglass module和discriminator network。
从左下角看起,输入一张NI-LR face图像(低分辨率光照也不好的图像),送入internal CPnet,目标是增强脸部细节,粗糙地均匀光照。
接着,作者希望采用一个外部的UI-HR face图像(高分辨率光照均匀的图像)作为引导。先是采用Encoder来提取引导图的特征,随后为了避免不对齐的情况出现,输入图像和引导图像的信息均采用STNs对齐。受文献[21]的启发,之后使用stacked hourglass network来估计脸部关键点的热力图以保存脸部结构。
Internal CPnet
主要目标是增强细节,粗糙地实现光照均匀。图像进来后先是一个convolution layer,一个Internal Copy module, 一个paste block。而Internal Copy module中具体又包含,residual block, channel-attention(CA) module(CA是为了增强高频信息,即人脸细节特征的),copy block。
copy block的结构如下图,CA模块的输出既是输入又是引导图。
来分析一波这个Internal Copy module的结构。输入的特征图是用来衡量NI-LR face的频带特征的,由脸部的低频信息组成(蓝色)。经过Internal Copy module后,输出的特征集中在高频信息上(红色),覆盖所有频带。因此,作者将这个模块命名为’copy’,因为它的本质操作是将高频特征拷贝到低频的地方,从而实现特征增强,为接下来的脸部细节上采样和光照补偿打基础。
External CPnet
作者采用了多个external CPnets和反卷积层来补偿光照和上采样,实现低分辨率到高分辨率的转换。external CPnet的结构如下图:
和Internal CPnet中的copy block一样,external CPnet也要执行copy block。这里的引导特征来自外部引导的UI-HR图像,输入特征来自NI-LR图像。和先归一化再计算。拷贝到的特征可以看作引导特征的加权和,它的实际计算公式如下:
其中,是所有位置的输出和。
是基于F的通道归一化。
都是学习得到的。
这个模块可以灵活地将引导特征的光照模块融合进输入特征中。
Loss Function
loss = Illumination compensation loss(Lic) + intensity similarity loss(L_mse) + identity similarity loss(L_id) + structure similarity loss(L_h) + adversarial loss(L_adv)

在文章中只介绍了光照loss,是来自AdaIN的style loss(文献[12])启发。最基本的思想是在隐空间中,重建的UI-HR图像的光照特征和引导的UI-HR图像接近。

g_i 引导的UI-HR图,h_i生成的UI-HR图,p(h, g)代表联合分布。表示预训练VGG-19的relu1-1, relu2-1, relu3-1, relu4-1层。和
表示每个特征通道的均值和方差。
Data augmentation
NI/UI图像对的数量有限,作者量身定制了一个Random Adaptive Instance Normalization(RaIN) model实现实时的光照风格迁移,实现数据增强。它的结构如下图所示。
如上图所示,RaIN model采用的encoder-decoder结构,encoder前几层到relu4-1用的VGG-19的固定权重。接着,用VAE使得NI人脸图像的特征统计有无限多的可能假设(?),AdaIN层用来对齐UI和NI脸的特征统计。
训练的时候,输入一张内容图像UI face,一张风格图像NI face。VAE对style feature编码出所有可能的变体。接着通过 AdaIN层,让content特征和style特征对齐,生成特征t。接着用一个decoder将t重新映射到图像,生成风格化后的图像Ics。

整个设置基于文献[12]进行了fine-tune,为了得到不同的光照条件,作者给content image加入了随机噪声,图像生成的过程如下图所示。
Evaluation
作者在三种场景下进行Qualitative and quantitative的评价。三种场景包括FH(Face hallucination)、IN+FH(Illumination compensation + Face hallucination)、FH+IN(Face hallucination + illumination compensation)。所有的方法都用本文数据集进行了重新训练。
Datasets
Multi-PIE + CelebFaces Attributes(CelebA)
Qualitative comparison
- 和其它方法比较
Ablation实验
我看g还挺清楚的,但是作者说g会有ghosting artifacts?作者还说有了adv loss图像会更锐利更真实。作者这里的g和h是图放反了吗
Quantitative comparison
指标:(average peak signal-to-noise ration)PSNR,(structural similarity)SSIM
真实表现
Conclusion
internal CPnet能增强细节
- external CPnet准确学习光照特征
L_id, L_h会让脸部细节更清晰,L_adv会减少伪影更真实。
Notes
face hallucination methods:一个新的名词,其实是接触过的意思,表示根据一张低分辨率输入生成一张高质量的人脸图像,本质上是超分。
Reference
face hallucination techniques[33, 42, 4, 5, 30, 37, 32, 38, 36, 34],34是SOTA