峰值抑制和知识指导的ViT

问题动机

现有的细粒度图像识别Transformer架构往往都只关注与最具有判别力的信息,从而忽视或者直接去掉其他部分的影响,从而缺乏对其他相关图像线索的考虑。

简介

本文提出了一个具有峰值抑制模块和知识引导的Transformer架构,同时利用图像中判别性特征和多样性特征的聚合。具体来说,峰值抑制模块(PS)根据编码器生成的注意力响应来删除具有判别力的标记,从而增强了对被忽视区域信息的利用,保持细粒度信息的多样性。
然后是用知识指导模块(KG)将峰值抑制模块生成的信息与知识嵌入集进行比较,获得知识响应分数。然后将知识学习形式化为转换为分类分数。知识嵌入在训练过程中更新,包含了整个数据及,因为抑制模块提取了多种信息,使用知识嵌入集显著提高了性能
在六个数据集上进行试验,证明了本方法的优势

方法核心

峰值抑制模块

本文通过rollout技术获得每层注意力图对下一层注意力图的影响矩阵,然后将这些信息矩阵相乘,得到注意力信息图,找出标记对各个小块的注意力向量,尺寸为N,在注意力图中找到影响最大的小块,将其设置为负无穷,在最后输出预测结果后,这个小块的响应就趋向于0,从而达到一直该小块的响应的效果,从而让网络注重于提取所有特征

知识指导模块

本文为了更好的利用经过抑制后得到的网络特征,设计了知识提取模块,具体来说,在获得了编码器关于类别标记的的编码信息,此时尺寸为D,比较编码信息和知识库信息的相似度,然后通过Softmax输出相关系数,简单来说,就是使用一个线性投影头计算每个类别的softmax概率,然后将每个类别的概率和知识库的信息相乘,得到了每个类别信息所需要提取的权重,此时尺寸为(C,D)然后将所有类别信息相加,得到D维的提取知识,将提取知识信息和编码信息相加后重新投影计算概率。
将两个概率的交叉熵损失加权相加得到总损失

总结

本文就很会讲故事,把一个很简单的思路讲的花里胡哨,不过本文确实值得借鉴,相当于李永乐参数矩阵,用每个样本不同的概率去乘不断变化的矩阵后求和得到从矩阵中得到的信息,然后将提取到的信息加到样本的编码输出中,本文的给的启发就是完全可以利用每个样本输出的概率先得到第一个损失函数,然后用这个概率信息去指导第二个损失函数