image.png

现存的深度方法主要有以下一些问题.

  1. 过去证明很有效的显著性先验被完全抛弃
  2. CNN的预测只考虑有限的局部图像区域. 不能加强空间一致性.
  3. 使用前向传播架构, CNN很难细化输出的预测.
  4. 显著性检测多被认为是一个二分类问题, 相较于数以千计的图像分类任务, 二类标签的强监督相有效性较弱.

总之,这项工作的贡献有三方面.

  1. 首先,我们提出了一种利用循环全卷积网络进行显著性检测的方法,该方法能够细化之前的预测。
  2. 其次,将显著性先验纳入网络,以促进训练和推理。
  3. 第三,设计了一种利用语义分割数据进行显著性检测的RFCN预处理方法,既利用了来自多个对象类别的强监督,又捕获了一般对象的内在表征。

所提出的显著性检测方法在四个基准数据集上产生了更精确的显著性映射,并且在相当大的范围内优于最先进的方法。

循环卷积架构

image.png

关于d的设计的表示:

Saliency Detection with Recurrent Fully Convolutional Networks - 图3

对于上述的递归架构,整个网络的前向传播是在每个时间步中进行的,这在计算和内存方面都是非常昂贵的. 另一种可选的循环架构是将显著的先验图合并到反卷积部分. 也就是e的结构.

注意,对于每个输入图像,反卷积部分在每个时间步中重复进行前向传播,而卷积部分在第一个时间步中只需要向前馈送一次

关于e的设计的表示:

Saliency Detection with Recurrent Fully Convolutional Networks - 图4

这里的F表示FCN的卷积部分, U表示反卷积部分. theta和phi是对应的部分的参数.

文章主要使用了d结构作为最终的架构设计. 虽然认为d的设计, 对于大量的循环会造成太大的计算消耗. 但是e的性能一般.

在初步实验中,发现e递归架构只能达到与基于FCN的方法(即,没有循环, 如c)。这可能是由于先验显著性图被严重降采样到上一个卷积特征图F(I;θ)大小(从输入被下采样1/32倍)。 在先验信息较少的情况下,下采样先验显著性图很难促进网络推理。

因此,在这个工作中采用了循环架构d

这里给了一个d结构的示意图:

image.png

显著性先验

初始先验使用空间距离加权的色彩距离来获取色彩对比度先验. 相同的方式可以获得亮度对比度和方向特征对比度. 结合中心先验可以得到对应的初始显著性先验图.

image.png

在第一步上采样结束后, 生成一个二通道结果:

image.png

前景背景概率可以如下计算:

image.png

一个认为是背景预测图, 一个认为是显著性前景图. 分别表示所有像素相对于背景和前景的得分.

在每个时间步中,我们通过RFCN将输入的RGB图像和显著性先验映射向前馈送,得到预测的显著性图,进而作为下一个时间步的显著性先验图。 第一步中的先验图由表示潜在显著区域的显著性先验来进行初始化.

每个时间步馈送的对应得到的前景图.

image.png

强化预训练

RFCN训练方法包括两个阶段: 预训练和微调。对PASCAL VOC 2010语义分割数据集进行预训练。显著性检测和语义分割是高度相关的,但本质上是不同的,显著性检测的目的是将一般的显著对象从背景中分离出来,而语义分割的重点是区分不同类别的对象

我们的预训练方法收获了来自分割数据的强监督,也可以让网络学习前景对象的一般表示

在原始语义分割真值的基础上, 添加两个多余的通道真值用来为显著性检测使用, 其设定为:

image.png

最终得到C+3个通道的预测. 预训练阶段之后, 对RFCN网络架构进行了修改, 去掉了最后一个特征图的前C+1个通道, 只保留了后两个通道, 即, 预测的前景和背景图. 最后在显著性检测数据集上进行微调.

预训练的模型, 在多个对象类别语义标签的监督下, 捕获一般的对象特征, 并且已经可以从背景中区分前景对象(预训练中不可见的类别). 微调进一步提升了性能.

image.png

预训练损失函数

image.png

注意式子的结构, S是像素级语义类别标注真值, 而G是前景背景的标注真值.

image.png

微调损失函数

image.png
**

后处理

使用空间置信度和颜色置信度来进一步优化获得的结果H.

image.png

空间置信度

image.png

颜色置信度

image.png

表示前景像素中, 和研究的像素(i,j)有着相同的色彩特征的像素数量.

image.png