image.png

主要工作

本文是17年的CVPR的论文,主要解决了之前基于深度学习的语义分割模型中存在的一些问题,主要针对的问题是如何更有效的整合和利用低级特征与高级、局部和全局特征。

有效整合局部和全局信息对于密集标签问题至关重要。大多数基于编解码器架构的现有方法简单地连接来自较早层的特征,以在细化阶段中获得更高频率的细节。但是前向传播中的模糊信息,则可能导致最终的细化结果的质量存在限制。

  • 本文提出了一种门控反馈细化网络(G-FRNet),这是一种用于密集标记任务的端到端深度学习框架,可解决现有方法的这种局限性。
  • 首先G-FRNet进行粗略预测,然后在细化阶段有效地整合局部和全局上下文信息来逐步细化细节。
  • 本文引入了控制向前传递信息的门单元,以借助深层特征来辅助浅层特征滤除其中的信息的模糊与歧义。使用更深,更有辨别力的层的特征来过滤从辨别能力较差但定位更精细的早期层传递的信息。
  • 文章认为深层特征可以帮助浅层信息恢复特征中的模糊性内容,而单独的浅层信息并不能很好的恢复,因为其感受野不是很大或者并不具有足够的区分性

在几个具有挑战性的数据集上的实验结果表明,所提出的模型比现有最先进的方法具有更好性能。 基于消融分析的实验结果揭示了粗到细门控细化值的普遍性。广泛的CNN模型可以从这些简单的体系结构修改中受益。

网络结构

image.png

Gate Unit

image.png

image.png

这里门控的设计使用深层的特征来控制浅层的特征,得到处理后的特征送入解码器。

Gated Refinement Unit

image.png

image.png

就是普通的卷积处理,不过这里有个设定,就是图中 + 操作表示的是拼接, U 表示上采样。这里拼接的时候,两部分的特征image.png,这里C是总的类别数量。这里给出了两个理由:

image.png

  • 降低计算量
  • 避免通道数少的特征被通道数多的特征所淹没

Stage-wise Supervision

这里使用了深监督策略,损失如下:

image.png

其中的η表示原始真值,这里的R表示放缩到对应的特征图大小后的真值。这里使用交叉熵,最终损失直接加和,权重都为1。

实验结果

image.png

image.png

image.png

image.png

image.png

image.png

相关链接

相关文章——LRN

这应该是本文的初期工作,本文在此基础上添加了门控机制,这篇LRN的文章的结果在本文GFRNet中也有展现:https://arxiv.org/pdf/1703.00551.pdf

image.png

image.png

image.png

image.png