图片 - Saliency Detection with Recurrent Fully Convolutional Networks - 《深度学习论文阅读》

现存的深度方法主要有以下一些问题.

总之，这项工作的贡献有三方面.

所提出的显著性检测方法在四个基准数据集上产生了更精确的显著性映射，并且在相当大的范围内优于最先进的方法。

循环卷积架构

关于d的设计的表示:

Saliency Detection with Recurrent Fully Convolutional Networks - 图3

对于上述的递归架构，整个网络的前向传播是在每个时间步中进行的，这在计算和内存方面都是非常昂贵的. 另一种可选的循环架构是将显著的先验图合并到反卷积部分. 也就是e的结构.

注意，对于每个输入图像，反卷积部分在每个时间步中重复进行前向传播，而卷积部分在第一个时间步中只需要向前馈送一次。

关于e的设计的表示:

Saliency Detection with Recurrent Fully Convolutional Networks - 图4

这里的F表示FCN的卷积部分, U表示反卷积部分. theta和phi是对应的部分的参数.

文章主要使用了d结构作为最终的架构设计. 虽然认为d的设计, 对于大量的循环会造成太大的计算消耗. 但是e的性能一般.

在初步实验中，发现e递归架构只能达到与基于FCN的方法(即,没有循环, 如c)。这可能是由于先验显著性图被严重降采样到上一个卷积特征图F(I;θ)大小(从输入被下采样1/32倍)。在先验信息较少的情况下，下采样先验显著性图很难促进网络推理。

因此，在这个工作中采用了循环架构d。

这里给了一个d结构的示意图:

初始先验使用空间距离加权的色彩距离来获取色彩对比度先验. 相同的方式可以获得亮度对比度和方向特征对比度. 结合中心先验可以得到对应的初始显著性先验图.

在第一步上采样结束后, 生成一个二通道结果:

前景背景概率可以如下计算:

一个认为是背景预测图, 一个认为是显著性前景图. 分别表示所有像素相对于背景和前景的得分.

在每个时间步中，我们通过RFCN将输入的RGB图像和显著性先验映射向前馈送，得到预测的显著性图，进而作为下一个时间步的显著性先验图。第一步中的先验图由表示潜在显著区域的显著性先验来进行初始化.

每个时间步馈送的对应得到的前景图.

RFCN训练方法包括两个阶段: 预训练和微调。对PASCAL VOC 2010语义分割数据集进行预训练。显著性检测和语义分割是高度相关的，但本质上是不同的，显著性检测的目的是将一般的显著对象从背景中分离出来，而语义分割的重点是区分不同类别的对象。

我们的预训练方法收获了来自分割数据的强监督，也可以让网络学习前景对象的一般表示。

在原始语义分割真值的基础上, 添加两个多余的通道真值用来为显著性检测使用, 其设定为:

最终得到C+3个通道的预测. 预训练阶段之后, 对RFCN网络架构进行了修改, 去掉了最后一个特征图的前C+1个通道, 只保留了后两个通道, 即, 预测的前景和背景图. 最后在显著性检测数据集上进行微调.

预训练的模型, 在多个对象类别语义标签的监督下, 捕获一般的对象特征, 并且已经可以从背景中区分前景对象(预训练中不可见的类别). 微调进一步提升了性能.

注意式子的结构, S是像素级语义类别标注真值, 而G是前景背景的标注真值.

使用空间置信度和颜色置信度来进一步优化获得的结果H.

表示前景像素中, 和研究的像素(i,j)有着相同的色彩特征的像素数量.