摘要:CoMoGAN 是一个连续的 GAN,它依赖于在功能流形上对目标数据进行无监督的重组。为此,我们引入了一个新的功能实例归一化层和残差机制,它们共同将图像内容与目标流形上的位置分开。我们依靠朴素的受物理启发的模型来指导训练,同时允许使用私有迁移模型。CoMoGAN 可以与任何 GAN 主干一起使用,并允许新类型的图像迁移,例如像延时生成这样的循环图像迁移,或分离的线性迁移。在所有数据集和指标上,它都优于现存文献结果。
    简介:本文引入了 CoMoGAN,这是第一个使用无监督目标数据学习非线性连续迁移规则的 i2i(image to image) 框架。它使用简单的物理启发模型进行训练,同时通过域特征的连续分解来放松模型依赖性。有趣的结果是,CoMoGAN在无人监督的情况下发现了目标数据流形排序。为了评估,我们提出了新的翻译任务,如图 1 所示,要么是循环的/线性的,要么是与源连接的/分离的。我们的贡献是:
    • 用于连续 i2i 的新型模型引导设置,
    • CoMoGAN:一个无监督框架,通过使用简单的模型指导,用于分解生成图像的不断发展的特征
    • 一个新的功能实例归一化 (FIN) 层,
    • 根据最近的基线和新任务对 CoMoGAN 的评估,在所有方面都优于现有文献。
    CoMoGAN: continuous model-guided image-to-image translation - 图1
    图1
    图1.与传统的 i2i 迁移方法不同,我们感兴趣的是在单模态或多模态设置中从源域(绿点)到目标域(红线)的连续映射。本文提出的一个关键特征是沿函数流形(顶部:循环,中间/底部:线性)对数据进行无监督的重组。我们利用了白天图像(顶部)的照明转换、对焦图像的较浅景深(中间)或合成清晰图像到逼真的有雾图像(底部)
    CoMoGAN: continuous model-guided image-to-image translation - 图2
    图2
    CoMoGAN: continuous model-guided image-to-image translation - 图3
    图3
    3.CoMoGAN
    CoMoGAN学习的不是点对点映射(CoMoGAN: continuous model-guided image-to-image translation - 图4),而是由CoMoGAN: continuous model-guided image-to-image translation - 图5控制的连续域转换,即CoMoGAN: continuous model-guided image-to-image translation - 图6。训练使用源数据(固定的CoMoGAN: continuous model-guided image-to-image translation - 图7)和无监督目标数据(未知的CoMoGAN: continuous model-guided image-to-image translation - 图8)。它重新塑造了由朴素的物理启发模型(例如色调映射、模糊等)引导的数据流形。我们不是模仿,而是放松模型,让网络通过我们对输出、CoMoGAN: continuous model-guided image-to-image translation - 图9和风格的分解来发现私有图像特征。
    图 2 是我们的未知架构网络的概述。它依赖于三个关键组件。我们首先介绍功能实例归一化层(第3.1节),该层可实现CoMoGAN: continuous model-guided image-to-image translation - 图10流形重塑。其次,我们的分解残差模块(第 3.2 节)负责对输入数据中的CoMoGAN: continuous model-guided image-to-image translation - 图11进行分解。最后,我们详细介绍了CoMoGAN: continuous model-guided image-to-image translation - 图12-Net,这是一个成对的CoMoGAN: continuous model-guided image-to-image translation - 图13回归网络(第 3.3 节),它加强了流形距离的一致性。
    本文使用简单的非神经模型CoMoGAN: continuous model-guided image-to-image translation - 图14(其中CoMoGAN: continuous model-guided image-to-image translation - 图15是源图像)来指导学习。因此,根据直觉可以粗糙模型发现目标流形:夜晚类似于黑暗的白天,雾看起来像模糊的灰色清晰图像,等等。由于我们从迁移模型中分离了共享和私有特征,因此我们不再需要复杂的物理指导就可以发现复杂的非建模特征(例如夜间的光源)。模型在4.1 和补充材料中有描述。
    3.1. 功能实例归一化
    为了利用本质上连续的模型指导,必须允许我们的网络编码CoMoGAN: continuous model-guided image-to-image translation - 图16连续性。为此,提出了实例归一化,该方法可以保存与风格相关的信息,输入为CoMoGAN: continuous model-guided image-to-image translation - 图17,可以写作:
    CoMoGAN: continuous model-guided image-to-image translation - 图18
    其中CoMoGAN: continuous model-guided image-to-image translation - 图19CoMoGAN: continuous model-guided image-to-image translation - 图20是输入特征的统计量,CoMoGAN: continuous model-guided image-to-image translation - 图21CoMoGAN: continuous model-guided image-to-image translation - 图22是仿射变换的可学习的参数.将其进行扩展,得到了功能实例归一化:
    CoMoGAN: continuous model-guided image-to-image translation - 图23
    在这里,不再学习具体的仿射变换的参数数值,而是学习变换CoMoGAN: continuous model-guided image-to-image translation - 图24CoMoGAN: continuous model-guided image-to-image translation - 图25的分布.直觉是根据转换的演变方式来塑造CoMoGAN: continuous model-guided image-to-image translation - 图26-流形。 与其他的工作相比,这使我们能够更好地解释学习到的流形。 根据CoMoGAN: continuous model-guided image-to-image translation - 图27的性质,我们可以相应地对FIN层进行编码。 在这项工作中,我们研究了线性和循环编码。 线性编码通常会遇到,并假设线性重组特征。 例如,考虑到恶劣的天气现象,恶劣条件(例如浓雾)总是位于轻条件(即轻雾)之后,对线性的FIN参数进行建模:
    CoMoGAN: continuous model-guided image-to-image translation - 图28
    其中CoMoGAN: continuous model-guided image-to-image translation - 图29都是可学习的参数.
    相反,一些迁移路径循环回源,就像白天发生的那样,它本质上是循环的,从白天到黄昏→夜晚→黎明和白天。 在这种情况下,我们使用如下公式对循环 FIN 层进行编码:
    CoMoGAN: continuous model-guided image-to-image translation - 图30
    3.2 分解残差模块
    严格模型依赖的缺陷在于 GAN 只会学习模仿模型。 为了防止这种情况,必须允许目标域CoMoGAN: continuous model-guided image-to-image translation - 图31和模型域CoMoGAN: continuous model-guided image-to-image translation - 图32具有共享的建模特征CoMoGAN: continuous model-guided image-to-image translation - 图33还有私有的非建模特征CoMoGAN: continuous model-guided image-to-image translation - 图34CoMoGAN: continuous model-guided image-to-image translation - 图35,写作:

    \begin {equation}
    Y(\phi)={Y^{\phi}, Y^E}, \
    Y_M(\phi)={Y_M^{\phi}, Y_M^E}
    \tag {5}
    \end {equation}

    使用 Disentanglement Residual Block(DRB,如图2所示)在任一域中启用私有特征,其目标是提取给定CoMoGAN: continuous model-guided image-to-image translation - 图36的分解表示。 DRB 由残差块组成,将编码器特征图CoMoGAN: continuous model-guided image-to-image translation - 图37映射到输出图像的分解表达。 令CoMoGAN: continuous model-guided image-to-image translation - 图38,下式成立:
    CoMoGAN: continuous model-guided image-to-image translation - 图39
    DRB工作方式如下.如图2所示,输入表示CoMoGAN: continuous model-guided image-to-image translation - 图40由残差块处理,每一个残差块都提取与之前引入的原子特征相关联的特征,例如CoMoGAN: continuous model-guided image-to-image translation - 图41.具体讲,用于提取CoMoGAN: continuous model-guided image-to-image translation - 图42的残差块使用FIN层进行归一化以编码连续特征。 隐藏的潜在表示CoMoGAN: continuous model-guided image-to-image translation - 图43CoMoGAN: continuous model-guided image-to-image translation - 图44是由分解特征和CoMoGAN: continuous model-guided image-to-image translation - 图45的总和获得的,以简化梯度传播。公式如下:
    CoMoGAN: continuous model-guided image-to-image translation - 图46
    直观地说,为了优化,我们需要两者的反馈真实数据相似性和模型输出的模仿。而前者必须依靠对抗训练,因为使用的是未配对的图像,我们可以强制以成对的模型进行重建CoMoGAN: continuous model-guided image-to-image translation - 图47。参考LSGAN的训练和鉴别器 D,我们得到:
    CoMoGAN: continuous model-guided image-to-image translation - 图48
    在生成器更新期间最小化上述两个损失函数可以实现CoMoGAN: continuous model-guided image-to-image translation - 图49CoMoGAN: continuous model-guided image-to-image translation - 图50的分解.
    3.3 成对回归网络(CoMoGAN: continuous model-guided image-to-image translation - 图51-Net)
    DRB 在特征级别强制解缠结和流形形状,但它需要专门的训练策略来实际解开真实图像的连续特征,而不是陷入陷阱,例如网络仅利用CoMoGAN: continuous model-guided image-to-image translation - 图52进行目标翻译而忽略CoMoGAN: continuous model-guided image-to-image translation - 图53。因此,我们引入了一种基于相似性的训练策略,迫使网络利用提取的连续信息并遵循模型指导。 假设输入图像为CoMoGAN: continuous model-guided image-to-image translation - 图54,由网络映射进行映射CoMoGAN: continuous model-guided image-to-image translation - 图55。 如图 2所示,我们随机采样CoMoGAN: continuous model-guided image-to-image translation - 图56CoMoGAN: continuous model-guided image-to-image translation - 图57并将CoMoGAN: continuous model-guided image-to-image translation - 图58作用于CoMoGAN: continuous model-guided image-to-image translation - 图59,得到一对CoMoGAN: continuous model-guided image-to-image translation - 图60。 我们使用卷积神经网络(CoMoGAN: continuous model-guided image-to-image translation - 图61-Net)进行域相似性发现。 它将一对图像作为输入并回归它们的CoMoGAN: continuous model-guided image-to-image translation - 图62差异,满足:
    CoMoGAN: continuous model-guided image-to-image translation - 图63
    通过加强真实和建模目标域图像之间的一致性以端到端的形式同时优化CoMoGAN: continuous model-guided image-to-image translation - 图64-Net和生成器(G)的参数,在下述公式中:
    CoMoGAN: continuous model-guided image-to-image translation - 图65
    CoMoGAN: continuous model-guided image-to-image translation - 图66强制生成器G遵循物理模型的反馈对流形进行组织,最终生成的CoMoGAN: continuous model-guided image-to-image translation - 图67CoMoGAN: continuous model-guided image-to-image translation - 图68能够被映射到被CoMoGAN: continuous model-guided image-to-image translation - 图69-Net发现的相同的CoMoGAN: continuous model-guided image-to-image translation - 图70.这样,尽管模型输出和学习的迁移规则之间存在差异,但是网络可以识别遵循相似性标准的图像,从而得到由物理模型引导的潜在空间的组织。CoMoGAN: continuous model-guided image-to-image translation - 图71仅利用建模数据,避免了训练崩溃。 对于线性 FIN,我们在CoMoGAN: continuous model-guided image-to-image translation - 图72CoMoGAN: continuous model-guided image-to-image translation - 图73上进行训练,尽管可以通过评估CoMoGAN: continuous model-guided image-to-image translation - 图74CoMoGAN: continuous model-guided image-to-image translation - 图75投影上的每个损失来增加循环稳定性。
    3.4训练策略
    COMOGAN可以进行端到端的训练,并且可以用于任何i2i网络,只要在编码器和解码器之间添加DRB模块并使用我们的损失函数.生成器最终的目标取决于源和目标是否解耦,即CoMoGAN: continuous model-guided image-to-image translation - 图76,一旦解耦,生成器更新步骤写作:
    CoMoGAN: continuous model-guided image-to-image translation - 图77
    对于耦合的源和目标,强制执行源(CoMoGAN: continuous model-guided image-to-image translation - 图78)的身份信息?:
    CoMoGAN: continuous model-guided image-to-image translation - 图79
    使用任一CoMoGAN: continuous model-guided image-to-image translation - 图80的定义,有时与正则化成对损失结合使用以简化训练。
    使用目标真实数据(CoMoGAN: continuous model-guided image-to-image translation - 图81),判别器最小化损失CoMoGAN: continuous model-guided image-to-image translation - 图82
    循环一致性
    除了有映射CoMoGAN: continuous model-guided image-to-image translation - 图83,很多网络还会执行映射CoMoGAN: continuous model-guided image-to-image translation - 图84,目的是保持内容的循环一致性.为了解决后者的需求,将共享DRB插入到每一个编码器/解码器之间,这样可以利用到多个源.如图3所示.还是用另一个称作CoMoGAN: continuous model-guided image-to-image translation - 图85的无监督网络来回归目标数据集的CoMoGAN: continuous model-guided image-to-image translation - 图86.在图3左侧,因为CoMoGAN: continuous model-guided image-to-image translation - 图87被注入映射CoMoGAN: continuous model-guided image-to-image translation - 图88之间,我们通过将CoMoGAN: continuous model-guided image-to-image translation - 图89添加到生成器目标来强制正确传播所有CoMoGAN: continuous model-guided image-to-image translation - 图90值.