像素级标记任务(例如语义分割)在图像理解中起着核心作用。 最近的方法已尝试利用深度学习技术的功能来进行图像识别,以解决像素级 标记任务。 这种方法学的一个中心问题是深度学习技术描述视觉对象的能力有限。 为了解决这个问题,我们引入了一种新形式的卷积神经网络,它结合了卷积神经网络(CNN)和基于条件随机场(CRF)的概率图形建模的优势。 为此,我们将具有高斯成对电位的条件随机场的均值场近似推断作为递归神经网络。 然后,将此网络称为CRF-RNN,作为CNN的一部分插入,以获得具有CNN和CRF均具有所需属性的深层网络。 重要的是,我们的系统将CRF建模与CNN完全集成在一起,从而可以使用常规的反向传播算法来端到端训练整个深度网络,从而避免了用于对象描绘的离线后处理方法。
我们将提出的方法应用于语义图像分割问题,在具有挑战性的Pascal VOC 2012分割基准测试中获得最佳结果
1.简介
诸如语义图像分割或深度估计之类的低级计算机视觉问题通常涉及为图像中的每个像素分配标签。 虽然用于对单个像素进行分类的特征表示在此任务中起着重要的作用,但在分配标签时要考虑诸如图像边缘,外观一致性和空间一致性之类的因素以获取准确和精确的结果,同样重要。
设计一个强大的特征表示是一个关键挑战。在牛津大学作者期间进行的工作。
在像素级标签问题上处于困境。 关于该主题的工作包括:TextonBoost [52],TextonForest [51]和基于随机森林的分类器[50]。 最近,在许多高级计算机视觉任务(例如图像识别[31]和对象检测[20])中,诸如大规模深度卷积神经网络(CNN)等有监督的深度学习方法已经取得了巨大的成功。 这激发了探索使用CNN解决像素级标记问题的动机。 关键的见解是学习端到端的强大功能表示,以完成像素级标记任务,而不是通过启发式参数调整来手工制作功能。 实际上,许多最近的方法,包括特别有趣的著作FCN [37]和DeepLab [10],都显示出通过将基于CNN的最新图像分类器用于语义分割问题,可以显着提高准确性。
但是,在将专为高级计算机视觉任务(例如对象识别)设计的CNN调整为像素级标记任务时,存在巨大挑战。 首先,传统的CNN具有卷积滤波器,具有大的接收场,因此在重构以产生像素级标签时会产生粗糙的输出[37]。 CNN中最大池化层的存在进一步降低了获得精细分割输出的机会[10]。 例如,这可能导致语义分割任务中出现非清晰的边界和类似斑点的形状。 其次,CNN缺乏平滑度约束,这些约束会鼓励相似像素之间的标签一致,以及标签输出的空间和外观一致性。 缺少这样的平滑度约束会导致对象描绘不佳,并且分割输出中的杂散区域较小[59、58、32、39]。
在深度学习技术进步的另一条轨道上,概率图形模型已被开发为提高像素级标记任务准确性的有效方法。 特别是,马尔可夫随机场(MRF)及其变体条件随机场(CRF)在这一领域已获得广泛成功[32,29],并已成为计算机视觉中最成功的图形模型之一。 用于语义标记的CRF推理的关键思想是将标签分配1问题公式化为一个概率性推理问题,其中包含了诸如类似像素之间的标签协议之类的假设。 CRF推理能够完善弱和粗像素级的标签预测,以产生清晰的边界和细粒度的细分。 因此,从直觉上讲,CRF可用于克服将CNN用于像素级标记任务的缺点。
一种利用CRF改善CNN产生的语义标记结果的方法是将CRF推论作为与CNN训练无关的后处理步骤[10]。 可以说,这没有充分利用CRF的强度,因为它没有与深度网络集成。 在此设置中,深度网络在训练阶段不了解CRF。
本文针对像素级语义图像分割问题提出了端到端的深度学习解决方案。 我们的公式在一个统一的框架中结合了CNN和基于CRF的图形模型的优势。 更具体地说,我们将具有高斯成对电位的密集CRF的平均场近似推理公式化为递归神经网络(RNN),该神经网络可以在向前传递中细化传统CNN的粗略输出,同时在训练过程中将误差微分传回CNN 。 重要的是,采用我们的公式,可以使用常规的反向传播算法对包括传统CNN和用于CRF推理的RNN在内的整个深度网络进行端到端训练。
可以说,经过适当的训练后,拟议的网络应优于将CRF推理作为对经过预训练的CNN产生的独立像素级预测进行后处理的系统。 我们的实验评估证实确实如此。 我们根据流行的Pascal VOC 2012基准评估了我们网络的性能,实现了74.7%的最新精度。
2. 相关工作
在本节中,我们将介绍利用深度学习和CNN进行低级计算机视觉任务的方法,重点是语义图像分割。 已经提出了各种各样的方法来使用深度学习来解决语义图像分割任务。 这些方法可以分为两种主要策略。
第一种策略是基于利用单独的机制进行特征提取和利用图像边缘进行图像分割[2,38]。 该方案的一个代表性实例是应用CNN提取有意义的特征,并使用超像素解决图像的结构图案。 两个有代表性的例子是[19,38],其中作者首先从图像中获得超像素,然后对每个像素使用特征提取过程。 此策略的主要缺点是初始提案中存在错误(例如:无论特征提取过程多么出色,超像素)都可能导致较差的预测。 Pinheiro和Collobert [46]使用RNN对场景解析过程中的空间依赖性进行建模。 与他们的方法相反,我们表明可以将典型的图形模型(例如CRF)表示为RNN,以形成深度网络的一部分,以与CNN结合进行端到端训练。
第二种策略是直接从图像到标签图学习非线性模型。 例如,这在[17]中显示,其中作者用卷积层替换了CNN的最后一个完全连接的层,以保留空间信息。 在这个方向上的重要贡献是[37],Long等人。 使用完全卷积网络的概念,以及顶层获得有意义的特征以进行对象识别的概念,而低层则保留有关图像结构的信息,例如边缘。 在他们的工作中,使用了从早期到后期的连接来组合这些提示。 贝尔等。 [5]和Chen等。 [10,41]使用CRF细化了从CNN获得的分割结果。 贝尔等。 专注于材料识别和细分,而Chen等。 报告了语义图像分割方面的重大改进。 与将CRF推理作为独立于CNN训练的独立后处理步骤的这些工作形成对比,我们的方法是端到端可训练网络,该网络在一个统一的深度网络中共同学习CNN和CRF的参数 。
在不同领域中发现了使用神经网络预测结构化输出的作品。 例如,Do等。 [14]提出了一种结合深度神经网络和马尔可夫网络进行序列标记任务的方法。Jain等。 [26]已经表明,卷积神经网络在图像恢复应用中可以像MRFs / CRFs方法一样表现良好。 从CNN和结构性损失中受益的另一个领域是手写识别。 在自然语言处理中,Yao等。 [60]表明,通过结合CRF模型的元素,可以显着提高基于RNN的单词标记器的性能。 在[6]中,作者为此目的将CNN与隐马尔可夫模型相结合,而最近,Peng等人将其合并。 [45]使用了CRF的修改版本。 与这一系列工作相关的是,在[25]中,联合的CNN和CRF模型用于自然图像的文本识别。 汤普森等。 [57]展示了使用CNN和MRF的联合训练来进行人体姿势估计,而Chen等人。 [11]用类似的方法集中在图像分类问题上。 [21]的另一项杰出著作是作者将可变形零件模型(一种MRF)表示为神经网络中的一层。 在我们的方法中,我们将不同的图形模型转换为神经网络层。
已经提出了许多用于图形模型参数的自动学习以及分类器和图形模型的联合训练的方法。Barbu等。 [4]在他们的主动随机场方法中提出了对MRF / CRF模型和推理算法的联合训练。 Domke [15]提倡在使用近似推论方法(例如均值场和置信度传播)时在图形模型中进行基于反向传播的参数优化。 这个想法在[28]中得到了利用,其中将二进制密集CRF用于人体姿态估计。 同样,罗斯等。 [47]和Stoyanov等。 [54]展示了如何通过信念传播进行反向传播来优化模型参数。 罗斯等。 [21]特别提出了一种基于学习消息的方法。 这些想法中的许多想法都可以追溯到[55],它提出了展开消息传递算法,作为可以在CNN中执行的更简单的操作。 在不同的设置中,Krahenb?uhl和Koltun [30]演示了当使用改进的均值场算法进行推理时,对稠密CRF的自动参数调整。 在[61]中提出了一种不基于均值场的稠密CRF的替代推理方法。
与上述工作相反,我们的方法表明可以将密集的CRF表示为RNN,这样就可以形成一种端到端的语义图像分割可训练系统,该系统结合了深度学习和图形建模的优势。
在arXiv.org上首次发布这项工作的技术报告后,arXiv.org上出现了许多独立的作品[49,35],提出了类似的联合训练方法来进行语义图像分割。
3.条件随机场
在本节中,我们简要概述了用于像素方式标记的条件随机字段(CRF),并介绍了本文中使用的表示法。 在逐像素标签预测的上下文中使用的CRF将像素标签建模为随机变量,当基于全局观察条件时,这些随机变量会形成马尔可夫随机场(MRF)。 通常将全局观察视为图像。
令Xi为与像素i相关的随机变量,它代表分配给像素i的标签,并且可以从标签的预定义集合L = fl1中取任何值; l2; :::; L 令X为由随机变量X1形成的向量; X2; :::; XN,其中N是图像中的像素数。 给定图G =(V; E),其中V = fX1; X2; :::; XNg和全局观测值(图像)I,对(I; X)可以建模为CRF,其特征为形式为P(X = xjI)= 1Z(I)exp(-E(xjI)的吉布斯分布 )。 这里,E(x)称为配置x 2 LN的能量,Z(I)是分配函数[33]。 从现在开始,为了方便起见,我们将I的条件放在符号中。
在[29]的完全连接的成对CRF模型中,
图1.作为CNN的均值场迭代。 均场算法的单次迭代可以建模为常见CNN层的堆栈。
标签分配x的能量由下式给出:
E(x)= X i u(xi)+ X i
p(xi; xj)= µ(xi; xj)MXm = 1w(m)k(m)G(fi; fj); (2)其中m的每个k(m)G = 1; :::; M是应用于特征向量的高斯核。 由fi表示的像素i的特征向量是从图像特征(例如空间位置和RGB值)得出的[29]。 我们使用与[29]中相同的功能。 顾名思义,称为标签兼容性函数的函数µ(:; :)捕获了不同标签对之间的兼容性。
将上述CRF能量E(x)最小化,将为给定图像提供最可能的标签分配x。 由于这种精确的最小化是难以解决的,因此使用CRF分布的平均场近似值来近似最大后验边缘推断。 它包括通过一个更简单的分布Q(X)近似CRF分布P(X),可以将其写为独立边际分布的乘积,即Q(X)= Qi Qi(Xi)。 接下来讨论用于近似平均场推断的迭代算法的步骤及其作为RNN的重构。
4. 作为CNN堆栈的均值场迭代层
本文的主要贡献在于表明,均值域CRF推论可以重构为神经网络(RNN).
密集CRF中的递归3算法1均值域[29],分解为常见的CNN操作。
全部i的Qi(l)Z1i exp(Ui(l))。 对于所有m,初始化而未收敛则Q〜(im)(l)Pj6 = i k(m)(fi; fj)Qj(l)。 讯息传递Qˇi(l)Pm w(m)Q〜(im)(l)。 加权滤波器输出Q ^ i(l)Pl02L µ(l; l0)Q ^ i(l0)。 相容性转换Q˘i(l)Ui(l)-Q ^ i(l)。 加一元电势Qi Z1i expQ˘i(l)。 规范化结束
为此,我们首先考虑算法1 [29]中总结的均值算法的各个步骤,并将其描述为CNN层。 我们的贡献基于以下观察:针对密集CRF的基于滤波器的近似平均场推断方法依赖于在每次迭代中对平均场近似应用高斯空间和双边滤波器。 与CNN中的标准卷积层不同,在训练阶段之后将滤波器固定在CNN中,我们使用保留边缘的高斯滤波器[56,42],其系数取决于图像的原始空间和外观信息。这些过滤器的其他优点是,尽管过滤器的大小可能与图像一样大,但需要较少的参数集。
在将推理算法的步骤重新构造为CNN层的同时,必须能够计算出每个层的误差。 它的输入,以便能够在训练过程中将误差微分传播到前一层。 我们还将讨论如何针对每个层中的参数计算误差差异,从而通过反向传播算法实现它们的优化。 因此,在我们的公式中,CRF参数(例如高斯核的权重和标签兼容性函数)也可以在训练整个网络时自动进行优化。
一旦将算法的各个步骤分解为CNN层,则可以将完整算法公式化为RNN。 在下面详细讨论算法1的步骤之后,我们将在第5节中对此进行解释。 在算法1和本文的其余部分中,我们使用Ui(l)表示上一节中引入的一元能量的负数,即Ui(l)= − u(Xi = l)。 在传统的CRF设置中,均值算法的输入Ui(l)是从独立的分类器中获得的。
4.1。 初始化
在算法的初始化步骤中,执行操作Zi(l)Z1i exp(Ui(l)),其中Zi = Pl exp(Ui(l))。 注意,这等效于在每个像素上所有标签上的一元电势U上应用softmax函数。 softmax函数之前已在CNN架构中广泛使用,因此在深度学习社区中众所周知。 此操作不包含任何参数,并且在执行softmax变换的常规反向传递计算之后,在反向传播期间在步骤的输出处接收的误差微分可以向下传递到一元电势输入。
4.2。 讯息传递
在密集CRF公式中,通过对Q值应用M个高斯滤波器来实现消息传递。 高斯滤波器系数是根据图像特征(例如像素位置和RGB值)得出的,这些特征反映了一个像素与其他像素的关联程度。 由于CRF可能已完全连接,因此每个滤镜的接收场都跨越了整个图像,因此无法使用强力实施滤镜。 幸运的是,存在几种近似技术,可以使高维高斯滤波的计算速度大大加快。[29]之后,我们使用四面体点阵实现[1],它可以在O(N)时间内计算滤波器响应,其中N是图像的像素数[1]。
在反向传播期间,误差导数w.r.t. 通过发送误差导数w.r.t计算滤波器输入。 滤波器通过相同的M个高斯滤波器反向输出。 就四面体点阵运算而言,这可以通过仅在模糊阶段反转可分离滤镜的顺序来实现,同时以与前向通过相同的方式来构建四面体点阵,展开和切片。 因此,也可以在O(N)时间内执行通过此滤波阶段的反向传播。 按照[29],我们使用两个高斯核,一个空间核和一个双边核。 在此工作中,为简单起见,我们将滤波器的带宽值保持固定。 也可以使用具有不同带宽值的多个空间和双边核,并学习它们的最佳线性组合。
4.3。 加权滤波器
输出对于每个类别标签l,均值场迭代的下一步是取前一步的M个滤波器输出的加权和。 当分别考虑每个类别标签时,可以将其视为具有1×1滤波器(具有M个输入通道和一个输出通道)的常见卷积。 由于在反向传播期间该步骤的输入和输出都是已知的,因此误差导数w.r.t。 可以计算滤波器4的权重,从而可以自动学习滤波器的权重(前一阶段每个高斯滤波器输出的相对贡献)。 误差导数w.r.t. 输入也可以按通常的方式计算,以将误差导数向下传递到上一级。 与[29]相比,为了获得更多的可调参数,我们为每个类标签使用独立的内核权重。 直觉是,空间核与双侧核的相对重要性取决于视觉类别。 例如,由于颜色的相似性是决定性的,因此,一方面,双边核在自行车检测中可能具有很高的重要性。 另一方面,由于电视屏幕内的任何内容可能具有许多不同的颜色,因此它们对于电视检测的重要性可能较低。
4.4。 相容性转换
在兼容性变换步骤中,前一步的输出(在算法1中用Q 1表示)在标签之间被不同程度地共享,这取决于这些标签之间的兼容性。 两个标签l和l0之间的兼容性通过标签兼容性函数µ(l; l0)进行参数化。 由[[]]为艾弗森括号的μ(l; l0)= [l 6 = l0]给出的Potts模型,如果将不同的标签分配给具有类似属性的像素,则会分配固定的罚款。 该模型的局限性在于,它为所有不同的标签对分配相同的代价。 直观地,通过考虑不同标签对之间的兼容性并相应地惩罚分配,可以获得更好的结果。 例如,将标签“ person”和“ bicycle”分配给附近的像素应比分配标签“ sky”和“ bicycle”具有更少的惩罚。 因此,从数据中学习函数µ优于预先用Potts模型固定它。 我们还通过一般假定µ(l; l0)6 = µ(l0; l)来放松兼容性变换模型。
兼容性变换步骤可以看作是另一个卷积层,其中滤波器的空间接收场为1×1,输入和输出通道数均为L。学习该滤波器的权重等效于学习标签兼容性函数µ 。 由于此步骤是通常的卷积运算,因此可以完成从该步骤的输出到输入的误差微分的转移。
4.5。 加一元电势
在此步骤中,从一元输入U逐元素减去兼容性变换阶段的输出。尽管此步骤不涉及任何参数,但可以通过将此步骤输出处的差分复制到具有适当符号的两个输入来轻松完成误差差分的传输。
4.6。 正常化
最后,迭代的归一化步骤可以视为没有参数的另一个softmax运算。 您可以使用softmax操作的向后传递将这一步输出的差分传递给输入。
5.端到端可训练网络
现在,我们描述用于语义图像分割的端到端深度学习系统。 为了为此铺平道路,我们首先说明如何将重复的均值场迭代组织为RNN。
5.1。 CRF作为RNN
在上一节中,显示了可以将平均场算法的一个迭代公式化为一组通用CNN层(见图1)。 我们使用函数fθ表示由一个均值场迭代完成的变换:给定图像I,像素级一元电势值U和对上一次迭代的边际概率Qin的估计,对下一个均值后边际分布的估计 场迭代由fθ(U; Qin; I)给出。
向量θ= fw(m); µ(l; l0)g; m 2 f1; :::; 镁; l; l0 2fl1; :::; lLg表示第4节中描述的CRF参数。
可以通过重复上述各层堆栈的方式来实现多次均值场迭代,以使每次迭代都从前一次迭代获取Q值估计,并以其原始形式获取一元值。 这等效于将迭代平均场推断视为递归神经网络(RNN),如图2所示。使用图中的符号,网络的行为由以下方程式给出,其中T是 平均场迭代:
H1(t)=(softmax(H2(t − 1)U;); t0 = 0
5.2。 完成图片
我们的方法包括一个完全卷积网络阶段,该阶段在不考虑结构的情况下预测像素级标签,然后是CRF-RNN阶段,该阶段执行基于CRF的概率图形建模以进行结构化预测。 因此,完整的系统统一了CNN和CRF的强度,并且可以使用反向传播算法[34]和随机梯度下降(SGD)程序进行端到端的训练。 在训练期间,可以将整个图像(或其中的许多图像)用作迷你批处理,并且可以使用适当的损耗函数(例如相对于地面真实分割的softmax损耗)来计算网络每个像素输出处的误差 图片。 我们使用[37]的FCN-8s体系结构作为网络的第一部分,它为CRF提供了一元的潜力。 该网络基于VGG-16网络[53],但已进行了重组以执行逐像素预测,而不是图像分类。
在通过网络的正向传递中,一旦计算通过CNN阶段后进入CRF-RNN,则数据需要进行T次迭代才能离开RNN创建的循环。 提供精确值的CNN或CRF-RNN之后的层(即损耗层)在此期间均无需执行任何计算,因为优化仅发生在RNN的循环内。 一旦输出Y离开环路,CRF-RNN之后的深层网络的下一阶段可以继续前向传递。 在我们的设置中,softmax损耗层直接跟随CRF-RNN并终止网络。
在反向传递期间,一旦误差微分到达CRF-RNN的输出Y,它们同样会在到达RNN输入U之前在循环内进行T次迭代,以传播到提供一元输入的CNN。 在循环内部的每次迭代中,如第4节所述,在均值场迭代的每个组成部分内计算误差微分。我们注意到,不必要地增加均值场迭代T的数量可能会导致梯度场消失和爆炸。 CRF-RNN。 但是,我们在实验期间没有遇到这个问题。
6. 实施细节
在本节中,我们描述了拟议网络的实施细节及其培训过程。 我们的系统的高层架构是使用流行的Caffe [27]深度学习库实现的,如图3所示。我们的方法的完整源代码和经过训练的模型将公开提供1。
我们使用FCN-8s网络的公开可用权重来初始化网络的第一部分[37]。 使用Potts模型初始化CRF-RNN的兼容性变换参数,并从交叉验证过程中获得内核宽度和权重参数。 我们发现这样的初始化导致训练的更快收敛。 在训练阶段,使用反向传播算法对整个网络的参数进行端到端优化。 特别是,我们使用了[37]中所述的全图像训练,学习率固定为10-13,动量设置为0:99。 使用这些参数的极值是因为我们每批仅使用一张图像,以避免达到GPU的内存限制。
在我们所有的实验中,在训练过程中,我们将CRF-RNN中的平均场迭代次数T设置为5,以避免消除/爆炸梯度问题并减少训练时间。 在测试期间,迭代次数增加到10。该参数值对精度的影响将在7.1节中讨论。
损失函数在获得本文所报告的最佳结果的模型训练期间,我们使用了标准的softmax损失函数,即[30]中所述的对数似然误差函数。 Pascal VOC挑战中使用的标准度量标准是工会的平均交集(IU),我们在这里也使用它来报告结果。 在我们的实验中,我们发现验证集上的IU高值在很大程度上与平均softmax损失的低值相关。 我们还在[30]中尝试了稳健的对数似然作为CRF-RNN训练的损失函数。但是,这不会提高准确性,也不会加快收敛速度。
标准化技术如第4节所述,我们使用指数函数,然后在CRFRNN的多个阶段中跨通道进行像素级标准化。 由于当输入值较大时,此操作趋向于相对于输入产生较小的梯度,因此我们进行了几次实验,用整流器线性单元(ReLU)操作代替了此操作,然后对通道进行了归一化。 我们的假设是,由于改善了坡度,该方法可以充分地近似原始操作,同时加快训练速度。 此外,ReLU会导致分配给像素的标签概率出现稀疏性,隐式修剪低可能性配置,这可能会产生积极影响。 但是,这种方法并没有带来更好的结果,比原始设置性能低了1%IU。
7. 实验
我们用提出的CRFRNN框架展示实验结果。 我们使用以下数据集:Pascal VOC 2012数据集和Pascal Context数据集。 我们使用Pascal VOC 2012数据集,因为它已成为与现有方法相比全面评估任何新语义分割方法的黄金标准。 我们还使用Pascal Context数据集来评估我们的方法在具有不同特征的数据集上的表现。
Pascal VOC数据集
为了在相同情况下使用现有方法评估我们的方法,我们使用Pascal VOC 2012数据集进行了两个主要实验,然后进行了定性实验。
在第一个实验中,继[37,38,41]之后,我们使用了由VOC 2012训练数据(1464个图像)以及[23]的训练和验证数据组成的训练集。
总计11685张图像。 在删除VOC 2012验证数据与该训练数据集之间的重叠图像后,我们剩下了来自原始VOC 2012验证集的346张图像以验证我们的模型。我们称此集为续集中的简化验证集。 由1456张图像组成的VOC 2012测试集的注释无法公开获得,因此,通过将结果提交给Pascal VOC挑战评估服务器来获得测试集的最终结果[18]。 无论图像数量较少,我们都发现验证集准确性的相对提高与测试集非常吻合。
第一步,我们直接比较了端对端学习模型相对于替代学习策略的潜在优势。 这些是普通的FCN-8,没有应用CRF,并且使用CRF作为与FCN训练脱节的后处理方法,与[10]和[41]中描述的方法相当。 结果报告在表1中,并显示了端到端策略相对于CRF的脱机应用程序(作为7后处理方法)的明显优势。 这可以归因于以下事实:在CRF-RNN的SGD训练期间,CNN组件和CRF组件学习如何相互协作以产生整个网络的最佳输出。
然后,我们将我们的方法与所有使用标准VOC 2012培训和验证集以及[22]发布的数据集的培训数据的最新技术进行了比较。 结果显示在柱上方的表2中,我们可以看到我们的方法胜过所有竞争对手。
在第二个实验中,除了上面的训练集之外,我们还使用了Microsoft COCO数据集[36]中的数据,如在[41]和[12]中所做的那样。 我们从MS COCO 2014训练集中选择了图像,其中地面真实分割至少具有200像素,并带有VOC 2012数据集中存在的类标签。 通过此选择,我们最终使用了来自COCO数据集的66,099张图像,因此在第二个实验中总共使用了66,099 + 11,685 = 77,784张训练图像。 在第二个实验中也使用了相同的简化验证集。 在这种情况下,我们首先根据COCO数据微调普通的FCN-32s网络(不包括CRF-RNN部分),然后我们使用学习的权重构建FCN-8s网络,最后从头到尾训练CRF-RNN网络 -仅使用VOC 2012培训数据。 由于MS COCO地面真相分割数据包含一些粗略的分割蒙版,其中无法正确描绘对象,因此我们发现使用COCO对模型进行微调不会产生明显的改善。 这可以理解,因为我们模型的主要优点来自于描绘对象和改善精细的分割边界。因此,VOC 2012培训数据集可帮助我们的模型有效地学习此任务。 该实验的结果显示在表2的下方,该栏下方,并且我们看到我们的方法在VOC 2012数据集上设置了新的最新技术。
请注意,在这两种设置中,由于在统一的CRF-RNN框架中对CNN和CRF进行了端到端训练,因此我们的方法优于竞争方法。 我们还根据VOC 2010和VOC 2011测试集评估了模型(请参见表2)。 在所有情况下,我们的方法都能达到最先进的性能。
为了获得关于CRFRNN学习方式的定性证据,我们将在CRF-RNN训练阶段之后学习到的兼容性函数可视化为图5中的矩阵表示形式。该矩阵的元素(i; j)对应于µ(i ; j)之前定义:(i; j)的高值意味着当相似的像素(在空间或外观上)分配了标签j时,将标签i分配给像素的代价高。 例如,我们可以理解,学习到的兼容性矩阵为倾向于同时出现的成对标签(例如[摩托车,人物]和[餐桌,椅子])分配了低罚款。