实时高分辨率真实图像迁移:拉普拉斯金字塔迁移网络

摘要:现有的图像到图像的迁移(I2IT)方法不是只能处理低分辨率图像就是由于其计算高分辨率特征图像时计算负担较重.在本文中,研究了对高分辨率图像上的图像迁移方法进行加速,该方法基于封闭形式的拉普拉斯金字塔分解和重建.具体的讲,本文发现类似光照和颜色的变化等属性迁移与低频成分更加相关,而内容细节则可以在高频成分上进行自适应优化.因此提出拉普拉斯金字塔迁移网络来同时进行这两项任务,本文设计了用于转移小分辨率的低频成分的网络和一个用于有效优化高频分量的渐进掩码策略.本模型避免了用于计算高分辨率特征图的较大计算量同时可以较好的保存图像细节.多种实验结果表明本文的算法可以在普通GPU上进行4K图像的实时迁移,同时迁移效果比现存方法更优.
High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图1
图1
(a)在不同时间采取的同一场景的图像(b~d)拉普拉斯金字塔((c~d中的图像为了更好的视觉效果进行了resize)).正如MSE和直方图图像所示,白天和黑夜图像之间的不同由低频分量决定.
简介:受拉普拉斯金字塔可逆和封闭形式的频带分解框架启发,本文发现了和频域有关的特性,例如写实图像的I2IT热舞中的光照和颜色就主要通过低频分量表现出来.而与此相反的是,图像的内容细节多与高频分量有关,而这些是可以通过视觉属性的转换进行自适应优化的.如图1所示,对于一组在不同时间拍摄的同一场景的图像,两者频域的高频分量之间的均方误差(MSE)比两者的低频分量的MSE小得多(大约是1/71和1/65).相同的现象在直方图和视觉效果上也有体现.图1的(b~c)证明高频子图像有逐渐变细的分辨率(?),而不同的级别显示像素级的相关性并表现出相似的纹理.这一属性决定可以使用有效的掩码策略用于调整内容的细节.
基于上述发现,本文就提升其有效性的同时保持迁移I2IT任务的性能提出一个快速而有效的方法,命名为拉普拉斯金字塔迁移网络.具体的讲,构建了一个轻量级的网络,该网络使用级联的残差模块在低频分量上进行和域相关的属性的迁移.为了拟合低频分量并且从拉普拉斯金字塔中重建图像,本文自适应地优化高频分量并且避免在高分辨率的特征图上使用过重的卷积来保证效率.因此构建了另一个较小的网络用于计算LP中最小的高频分量的掩码,之后渐进地对其进行上采样以适应其他的高频分量.该网络可以以对抗训练的策略使用无监督方式实现端到端的训练.
本文有如下优势:首先第一个实现了在4K图像上的实时I2IT方法,其次即使使用轻量级的快速推理的网络,仍然可以获得现实图像中I2IT任务的较好表现.就质量和数量两个方面来说,实验结果均证明了该方法的有效性.
High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图2
图2
LPTN算法的流程.对于高分辨率图像,首先将其分解为拉普拉斯金字塔.红色箭头:对于低频分量,使用轻量级网络将其转换到<公式>.褐色箭头:为了自适应地优化高频分量<公式>,可以通过低频和高频分量学习一个掩膜<公式>.紫色箭头:对于其他具有较高分辨率的分量,渐进的上采样学习到的掩膜,并使用轻量级的卷积网络机型优化,来保证对现实图像的重建能力.
2.2拉普拉斯金字塔
拉普拉斯金字塔是图像处理领域一个长期使用的技术.拉普拉斯方法的主要内容是将一幅图像进行线性分解,分解为高频和低频的带,而从这些带中可以重建原始的图像.具体的讲,对于任何一张像素为High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图3的图像High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图4,LP首先计算一个低通预测High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图5,每个像素都是基于固定内核的相邻像素的加权平均值.为了完成可逆重建,LP记录高频残差High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图6:High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图7,其中High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图8表示从High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图9上采样得到的图像.为了减少采样率和图像分辨率,LP在图像High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图10上循环的运行上述的步骤,得到低频和高频分量.
LP范式的分层结构启发了最近的基于CNN的图像处理工作,比如图像生成,超分辨率和予以分割.本文解决I2IT难题,并且证明该问题可以同时在低频转换光照和颜色,在高频保持细节,同时避免使用高计算耗费的卷积.因此,设计了一个有效的用于在高频分量上的优化模型,这样可以在4k图像上做到实时.
3.拉普拉斯金字塔迁移网络
3.1框架全览
本文提出端到端的框架,叫做拉普拉斯金字塔迁移网络(LPTN),该网络可以减少计算负担并保持I2IT任务的迁移性能.LPTN的全部过程如图2所示.
如图2所示,对于一张图像High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图11,首先将其分解为一个拉普拉斯金字塔,得到一系列的带通分量,使用image.png表示,还得到低频残差图像High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图13,其中L是LP的分解级别。H中的元素具有逐渐下降的分辨率,从High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图14下降到High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图15,而High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图16High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图17个像素。这种分解是可逆的,也就是说原始图像可以通过一系列的镜像操作进行重建。根据Burt和Adelson,H是高度去相关的,除了图像的细节纹理,多数像素的亮度是接近0的。同时经过低通滤波的High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图18会被模糊化,每个像素都以高斯滤波的方式被周围像素平均了。结果就是,High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图19以独立于图像内容的方式反映了一张图向的全局属性。
受上述阐述的LP的属性的启发,本文提出主要在High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图20上进行迁移来控制光线或者颜色,同时自适应地优化H避免在重建过程中产生瑕疵。另外,根据较低分辨率分量渐进地优化较高分辨率的分量。LPTN框架因此分为三个部分。首先通过深层的卷积将低分辨率的High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图21映射到High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图22,其次学习在High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图23上的一个掩膜,其中High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图24表示双线性上采样操作,掩膜之后会与High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图25相乘来优化高频分量的第High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图26级。第三,为了进一步优化其他的高分辨率分量,提出一个高效的渐进式上采样策略。在从High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图27High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图28的每个级别,首先上采样上一级别的掩膜,然后学习一个轻量级的卷积层来微调该掩膜。在下面的部分中将详细介绍这些模块。
3.2低频分量迁移
LP固有的特性,包括纹理和视觉属性的分离和可逆重构性,可以对真实图像的I2IT任务有帮助。常见的带有纹理变化的I2IT任务中,与域相关的属性通过有深度编解码网络支持的隐藏空间来表达,与之相反的是,观察到真实图像上的I2IT任务中,与域相关的属性主要是光照或者颜色,这些属性可以通过固定的核进行快速提取。如图1所示,在白天到黑夜迁移任务中的与域相关的视觉属性主要由低频分量表达,而高频分量则更多地与纹理相关。因此,可以将低频分量中与域相关的属性通过较低的分辨率进行迁移,这就极大地减少了计算复杂度。
如图2所示,对于有较低分辨率的High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图29,首先使用1x1的卷积增加特征图的通道数。之后在扩展的特征图顶端叠加5个残差层。对于每一个残差层,两个卷积层的kernel size是3,stride是1,后跟leaky relu。之后,将特征图的通道数减少为c(c是输入图像的通道数)得到迁移结果High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图30。输出最后通过tanh激活层加到原始输入上。
传统的I2IT算法也会使用级联的残差层进行低维空间的转换。但是本文方法相对于这些方法有明显的优势:1)在时间和空间效率方面:LP中高频和低频分量的分解是基于固定核和简单的卷积操作的,因此很高效而且无需学习。这种策略基于先验知识:真实图像上的I2IT任务需要改变光照和颜色同时轻微优化纹理。而传统的方法则通过较重的卷积操作自动编码器获得整张图像的低维隐空间,这一策略限制了这些方法在高分辨率图像上的应用。2)在解耦和重建效率方面:在一个LP中不同频率带的分离很简单高效。而基于学习的自动编码器会受限于模型大小和解耦/重建效率之间的平衡的影响。
3.3高频分量优化
为了保持较好的重建效果,同时对与域相关的属性进行变更,高频分量High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图31应该根据从High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图32High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图33的映射进行优化。在此部分中,提出为High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图34学习一个掩膜,并渐进的扩展之,用于优化后续的高频分量。
根据3.1部分的分析,现有High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图35以及High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图36,首先对High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图37进行双线性上采样来匹配High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图38的尺度。之后连接High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图39,并将其输入如图2中所示的小网络。最后的卷积层的输出通道数设置为1.
网络High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图40的输出可以看作是High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图41的逐像素的掩膜。如图1所示,对于两个域中的图像对而言,同一级别的高频分量只在全局亮度上有着细微不同。因此掩膜可以看做是全局的调整,相比于在混合频域的图像上进行优化要简单。使用如下公式进行优化High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图42
High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图43
其中High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图44表示逐像素乘法。
之后渐进地上采样掩膜High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图45得到一系列掩膜High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图46,分辨率也相应变化。如图2所示,High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图47使用尺度因子为2的双线性插值方法进行上采样,后跟轻量级的卷积模块,进行微调。之后进行渐进地操作,直到生成High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图48.所以可以对所有LP中的高频分量使用相同的公式(1)中的方法进行优化,得到最终结果High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图49.结果图像就可以通过迁移结果High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图50和优化之后的High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图51得到。
3.4学习标准
本文提出的LPTN通过无监督方式进行训练,在图像空间中同时优化重建损失High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图52和对抗损失High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图53.为了保证有效的迁移和优化,使High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图54,其中High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图55表示输入图像,High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图56表示迁移结果。High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图57基于LS-GAN目标和多尺度判别器进行训练,以匹配目标分布。具体的说,训练生成器G(包括低频和高频模块)来最小化High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图58,训练判别器D来最小化High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图59.判别器D在三种图像尺度上有3个相同的网络结构。总损失通过如下公式计算:High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network - 图60.