Title

Copy and Paste GAN: Face Hallucination from Shaded Thumbnails

Information

论文地址:https://arxiv.org/abs/2002.10650
github地址:

Summary

作者提出一个网络可以端到端地实现人脸超分和光照均衡。这个网络提出了internal CPnet和external CPnet,通过增强人脸细节、学习外部引导图光照和数据增强生成人脸图像对实现较

Contribution(s)

  1. 提出了CPGAN的框架,可端到端地同时解决face hallucination和illumination compensation,优化方法有传统的face hallucination loss和新的illlumination compensation loss。
  2. 引入内部的CPnet增强脸部细节,粗糙地实现光照均一化,为接下来的上采样和光照补偿打基础
  3. 用外部的CPnet通过学习外部的HR face实现光照补偿。这里并不需要有着同样光照条件的数据集
  4. 一个新的数据增强方法,Random Adaptive Instance Normalization(RaIN),用来生成NI-LR和UI-HR人脸图像对。

创新点:

  • 采样了一个UI-HR face作为引导图
  • 提出了光照补偿Loss

    Problem Statement

    目前的方法可大致分为三类。
  1. 现有的face hallucination techniques受到不均匀或低光照的影响,脸部细节会模糊。
  2. 一些侧重解决人脸光照的方法通常不适用于face thumbnails,因为无法准确检测人脸关键点。
  3. 一些Image-to-Image的方法因为光照条件的不一致不具有普适性。

[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图1
上图的f和g均使用了光照均一化和face hallucination,存在伪影。为此,本文致力于用一个通用网络在未归一化的低光照下实现face hallucination,即从Non-uniform low illumination, Low resolution face(NI-LR face)生成Uniform illumination, High Resolution face(UI-HR face)

Method(s)

整体结构

[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图2
整个CPGAN由以下组成:internal CPnet, external CPnets, spatial transformer networks(STNs,这个是前人的工作,文献14), deconvolutional layers, stacked hourglass module和discriminator network。
从左下角看起,输入一张NI-LR face图像(低分辨率光照也不好的图像),送入internal CPnet,目标是增强脸部细节,粗糙地均匀光照。
接着,作者希望采用一个外部的UI-HR face图像(高分辨率光照均匀的图像)作为引导。先是采用Encoder来提取引导图的特征,随后为了避免不对齐的情况出现,输入图像和引导图像的信息均采用STNs对齐。受文献[21]的启发,之后使用stacked hourglass network来估计脸部关键点的热力图以保存脸部结构。

Internal CPnet

[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图3
主要目标是增强细节,粗糙地实现光照均匀。图像进来后先是一个convolution layer,一个Internal Copy module, 一个paste block。而Internal Copy module中具体又包含,residual block, channel-attention(CA) module(CA是为了增强高频信息,即人脸细节特征的),copy block。
copy block的结构如下图,CA模块的输出既是输入又是引导图。
[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图4
来分析一波这个Internal Copy module的结构。输入的特征图是用来衡量NI-LR face的频带特征的,由脸部的低频信息组成(蓝色)。经过Internal Copy module后,输出的特征集中在高频信息上(红色),覆盖所有频带。因此,作者将这个模块命名为’copy’,因为它的本质操作是将高频特征拷贝到低频的地方,从而实现特征增强,为接下来的脸部细节上采样和光照补偿打基础。

External CPnet

作者采用了多个external CPnets和反卷积层来补偿光照和上采样,实现低分辨率到高分辨率的转换。external CPnet的结构如下图:
[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图5
[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图6
和Internal CPnet中的copy block一样,external CPnet也要执行copy block。这里的引导特征来自外部引导的UI-HR图像,输入特征来自NI-LR图像。和先归一化再计算。拷贝到的特征可以看作引导特征的加权和,它的实际计算公式如下:
[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图7

其中,[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图8是所有位置的输出和。[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图9是基于F的通道归一化。[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图10都是学习得到的。
这个模块可以灵活地将引导特征的光照模块融合进输入特征中。

Loss Function

loss = Illumination compensation loss(Lic) + intensity similarity loss(L_mse) + identity similarity loss(L_id) + structure similarity loss(L_h) + adversarial loss(L_adv)
![](https://cdn.nlark.com/yuque/__latex/179ecb91946313c7fff52e6eaa4982d9.svg#card=math&code=L
%7BG%7D%3D%5Calpha%20L%7Bm%20s%20e%7D%2B%5Cbeta%20L%7Bi%20d%7D%2B%5Cgamma%20L%7Bh%7D%2B%5Cchi%20L%7Bi%20c%7D%2B%5Ckappa%20L%7Ba%20d%20v%7D&height=16&width=274)
在文章中只介绍了光照loss,是来自AdaIN的style loss(文献[12])启发。最基本的思想是在隐空间中,重建的UI-HR图像的光照特征和引导的UI-HR图像接近。
![](https://cdn.nlark.com/yuque/__latex/090ee163d150f7595571cc2413fb8fef.svg#card=math&code=%5Cbegin%7Baligned%7D%0AL
%7Bi%20c%7D%3D%26%20%5Cmathbb%7BE%7D%7B%5Cleft%28%5Chat%7Bh%7D%7Bi%7D%2C%20g%7Bi%7D%5Cright%29%20%5Csim%20p%28%5Chat%7Bh%7D%2C%20g%29%7D%5Cleft%5C%7B%5Csum%7Bj%3D1%7D%5E%7BL%7D%5Cleft%5C%7C%5Cmu%5Cleft%28%5Cvarphi%7Bj%7D%5Cleft%28%5Chat%7Bh%7D%7Bi%7D%5Cright%29%5Cright%29-%5Cmu%5Cleft%28%5Cvarphi%7Bj%7D%5Cleft%28g%7Bi%7D%5Cright%29%5Cright%29%5Cright%5C%7C%7B2%7D%5Cright.%5C%5C%0A%26%5Cleft.%2B%5Csum%7Bj%3D1%7D%5E%7BL%7D%5Cleft%5C%7C%5Csigma%5Cleft%28%5Cvarphi%7Bj%7D%5Cleft%28%5Chat%7Bh%7D%7Bi%7D%5Cright%29%5Cright%29-%5Csigma%5Cleft%28%5Cvarphi%7Bj%7D%5Cleft%28g%7Bi%7D%5Cright%29%5Cright%29%5Cright%5C%7C_%7B2%7D%5Cright%5C%7D%0A%5Cend%7Baligned%7D&height=99&width=345)
g_i 引导的UI-HR图,h_i生成的UI-HR图,p(h, g)代表联合分布。表示预训练VGG-19的relu1-1, relu2-1, relu3-1, relu4-1层。[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图11[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图12表示每个特征通道的均值和方差。

Data augmentation

NI/UI图像对的数量有限,作者量身定制了一个Random Adaptive Instance Normalization(RaIN) model实现实时的光照风格迁移,实现数据增强。它的结构如下图所示。
[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图13
如上图所示,RaIN model采用的encoder-decoder结构,encoder前几层到relu4-1用的VGG-19的固定权重。接着,用VAE使得NI人脸图像的特征统计有无限多的可能假设(?),AdaIN层用来对齐UI和NI脸的特征统计。
训练的时候,输入一张内容图像UI face,一张风格图像NI face。VAE对style feature编码出所有可能的变体。接着通过 AdaIN层,让content特征和style特征对齐,生成特征t。接着用一个decoder将t重新映射到图像,生成风格化后的图像Ics。
![](https://cdn.nlark.com/yuque/__latex/346588e5f078060693db5cd37071eb62.svg#card=math&code=t%3D%5Coperatorname%7BAdaIN%7D%5Cleft%28I
%7Bc%7D%2C%20I%7Bs%7D%5Cright%29%3D%5Cwidetilde%7B%5Csigma%5Cleft%28f%7Bs%7D%5Cright%29%7D%5Cleft%28%5Cfrac%7Bf%7Bc%7D-%5Cmu%5Cleft%28f%7Bc%7D%5Cright%29%7D%7B%5Csigma%5Cleft%28f%7Bc%7D%5Cright%29%7D%5Cright%29%2B%5Cwidetilde%7B%5Cmu%5Cleft%28f%7Bs%7D%5Cright%29%7D&height=41&width=322)
整个设置基于文献[12]进行了fine-tune,为了得到不同的光照条件,作者给content image加入了随机噪声,图像生成的过程如下图所示。
[CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图14

Evaluation

作者在三种场景下进行Qualitative and quantitative的评价。三种场景包括FH(Face hallucination)、IN+FH(Illumination compensation + Face hallucination)、FH+IN(Face hallucination + illumination compensation)。所有的方法都用本文数据集进行了重新训练。

Datasets

Multi-PIE + CelebFaces Attributes(CelebA)

Qualitative comparison

  • 和其它方法比较
    [CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图15
  • Ablation实验
    [CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图16
    我看g还挺清楚的,但是作者说g会有ghosting artifacts?作者还说有了adv loss图像会更锐利更真实。作者这里的g和h是图放反了吗

    Quantitative comparison

    指标:(average peak signal-to-noise ration)PSNR,(structural similarity)SSIM
    [CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图17

    真实表现

    [CPGAN]Copy and Paste GAN: Face Hallucination from Shaded Thumbnails - 图18

    Conclusion

  • internal CPnet能增强细节

  • external CPnet准确学习光照特征
  • L_id, L_h会让脸部细节更清晰,L_adv会减少伪影更真实。

    Notes

    face hallucination methods:一个新的名词,其实是接触过的意思,表示根据一张低分辨率输入生成一张高质量的人脸图像,本质上是超分。

    Reference

  • face hallucination techniques[33, 42, 4, 5, 30, 37, 32, 38, 36, 34],34是SOTA