简介

现有的弱监督细粒度图像识别方法通常是直接从高级特征图中挑选出鉴别区域。不过由于堆叠局部区域,卷积神经网络会导致高层特征图中的判别性区域扩散的问题,并且将该扩散区域通过反向传播导致问题加剧,从而降低弱监督学习的性能。
面向判别性特征的高斯混合模型 - 图1
本文提出了一个端到端的面向判别性特征的高斯混合模型DF-GMM以解决判别区域扩散的问题,并可以找到更准确的细粒度细节。本方法由低秩表示机制(Low-rank Representation Mechanism,LRM)和低秩表示重组机制(Low-rank Representation Reorganization,LR2M)组成。具体来说,首先通过低秩表示机制在高斯混合模型学习一组低秩判别基,专注于选择判别性细节后再高层过滤掉无关信息。再通过低秩表示重组机制,恢复低秩判别基的空间信息来重建低秩特征图,和高级特征图相结合,从而将判别区域更精准地定位在新的低秩特征图上。
在大量实验中证明,在鸟、车、飞机数据集上,用相同的实验设置,DF-GMM可以取得最先进水平。

方法核心

面向判别性特征的高斯混合模型 - 图2
整个网络DF-GMM的目标是使用低秩表示机制通过高斯混合模型从高级特征图中学习一系列判别性区域,然后利用他们去重建低秩判别特征图,从而减少高级特征图的混淆情况

低秩表示机制

低秩表示机制需用通过高斯混合模型构建低秩判别基,高斯混合模型组成:

  • 基初始化模块,目标是让每个图像的低秩基更加独特
  • 期望步模块,计算线性权重相关系数的期望值
  • 最大化步模块,通过高级特征图的线性权重相关系数加权求和来更新低秩基

对于给定高级特征图,高斯混合模型生成每个通道的低秩判别基和每个像素的线性权重相关系数矩阵,为基的数量。通过多次更新相关系数矩阵和低秩判别基,直到低秩基具有最高的判别力。

低秩表示重组机制

使用低秩表示机制会让网络专注于判别性细节,而不是考虑背景,不过网络在没有空间信息的情况下难以找到判别性区域,所以使用地址表示充足机制来恢复判别性空间信息。
当高斯混合模型收敛后,将系数矩阵的N重构成长宽(K,H,W),对于给定低秩基(C,K)和系数矩阵(H,W,K)可以通过矩阵乘法的方式重新构建特征图,此时的特征图和原始输入相比具有低秩信息,同时保留了特征图和低秩基的相关性,从而恢复空间信息的判别细节

判别信息采样

得到重组之后的特征图后,对其进行卷积操作,得到判别力部件的相应区域,然后从中选取M个相应最高的区域,并使用锚框记录位置信息,最后分类时将原始特征图,提取出的各个相应区域连接起来,用做最后分类

损失函数

本文定义了四个损失函数,最后总损失是四个损失的加权和

交叉熵损失

计算分类结果和标签的交叉熵,约束网络获得正确分类结果

引导损失

计算融合特征的分类结果和判别区域的分类结果的交叉熵的差,鼓励网络选择最具有判力的区域

相关损失

计算所有判别区域特征融合结果和单个判别区域特征的预测结果的交叉熵的差,保证组合特征预测概率大于单个判别区域的特征

秩损失

计算所有预测概率高于其值的秩的差,保证判别分数和预测概率的一致性

总结

本文的思想是很好的,因为高级特征图判别性区域扩散而导致定位不准确,可以融合低秩信息增加定位的准确性,这点和TransFG中提到的,最后一层注意力定位不准确结论相同。不过本文使用了自己独创的寻找判别性区域方法,而且过程十分复杂,分类精度和传统注意力方法相比并没有太大提升,所以可拓展性很差,并不是一个帮助很大的论文
至于高层特征图扩散可以通过像TransFG那样,直接连乘所有注意力图来获得最终注意力或者使用金字塔网络的方法,分层提取注意力来进行定位,也可以使用MA-CNN使用通道分组聚类来定位判别性区域,在使用损失函数约束。