简介

在使用图像级标签训练的深度卷积神经网络往往只会关注最具判别力的部分,而忽略了其他可以提供补充信息的对象部件。但是最具判别力的部件可能会有局限性,一些分类任务需要掌握尽可能完整的对象信息,为了消除冗余,这些部件应该作为补充信息加入到最终分类决策中。
自底向上的弱监督互补部件模型 - 图1
本文使用弱监督的方式构建互补性部件模型,用来检索由卷积神经网络中被主要对象部件抑制的信息。给定图像级标签,先试用深度神经网络生成类激活图,交替使用Mask R-CNN进行分割和基于CRF的无监督方法进行分割增强,最后生成对象的实例分割图,将前一个对象检测阶段生成的包含了众多部件信息的检测框组成补充部件模型。最后使用LSTM将这些互补的部件信息融合成编码用于图像分类。
实验结果表明,本方法对基线模型有了很大的改进,在鸟、狗、数据集上大大优于最先进水平

方法核心

实例分割

获得卷积神经网络最后一阶段的特征图,经过对于每个通道执行全局平均汇聚获得激活图, 从激活图上可以观察到多个局部最大响应,我们将多个这些区域作为分割候选的对象。然后为每个对象构建一个对象概率图,一共有n+1个,最后一个表示背景的概率,然后使用CRF设置概率阈值0.8提取高质量的实例分割结果,获得到标签图L
将这些实例片段作为Mask-RCNN的伪真实标签进行训练,输出的结果进一步优化实例分割结果。这个操作将对象检测和实例分割转化为完全监督学习

寻找互补部件

使用Mask-RCNN的锚框的时候往往会用到非极大值抑制(NMS),现有研究不少采用这种方法来减少冗余,在弱监督学习中,被抑制的冗余往往包含了丰富的对象部件信息,所以说,这里认为被抑制的信息就是关键信息的互补部件。通过进一步细化被抑制的部件,对其生成n+1个概率图,并用来优化上述实例分割的过程
自底向上的弱监督互补部件模型 - 图2

互补模型

为了让各个部件互相补充,他们的外观、特征、位置的差异应该尽可能大,各个部件的部件的分数总和也应该尽可能大,在寻找互补部件时应当附加外观相似性重叠程度的损失。经过筛选,可以找到部件总分最高的一组互补部件,也是最优解。因为在所有的被抑制部件中找计算量很大,所以这里使用快速启发式算法求近似解,本文使用的是贪心搜索

特征融合

使用堆叠的LSTM进行特征融合,本文使用两个LSTM进行堆叠,第一个LSTM的隐藏状态送入第二个LSTM层,第二个LSTM层和第一个顺序相反,然后每个部件输出一个预测结果,再调和各个部件预测的损失函数得到最后损失。

总结

本文提供了一种新的思路,即融合了被抑制的信息,比如不是这么重要的部件,甚至是背景,事实表明,这些信息对分类确实很有帮助,比如部分物种就更加频繁的出现在水中,这里的背景信息对分类也有帮助。
本文是在弱监督学习方法上改进的,我们可以将类似的思想用在监督学习上。在选择性稀疏采样中也提到了互补区域,不过那篇文章没有使用到锚框,直接用注意力图进行提取,最新的研究方向很少使用锚框,因为注意力提取的方法效果已经十分优秀,所以未来可以把关注点放在注意力机制上。