简介

使用单神经网络往往无法很好处理细粒度图像识别的任务,目前,部件检测和注意力机制相关的网络证明了多个卷积神将网络寻找判别性部件的有效性。
本文提出了一个注意力卷积二元神经树(Attention convolutional binary neural tree, ACNet)来解决弱监督细粒度图像识别的问题,具体来说,本方法沿着树形结构的边缘进行卷积运算,并且使用每个节点的路由函数来决定书内根到叶节点的计算路径作为深度神经网络,树形结构表现了从粗到细的分类学习过程。树形结构不同分支集中对不同局部区域进行分类,最后分类结果为所有叶子节点预测结果的总和。
和其他在训练过程中自适应正常树深度的工作相比,本方法使用预定深度的树形结构,避免了修剪所需要的训练时间。本文还使用了注意力转换模块来强制网络学习具有辨别力的特征。
在鸟、车、狗、飞机数据集上进行实验精度达到了当时最先进水平。

方法核心

注意力卷积二元神经树 - 图1
ACNet定义一对(T,O),其中T定义了树的拓扑结构,O定义了T每条边上操作的集合。本文使用全二叉树,V,E,k分别表示树的节点、边、高度。每个节点由决定样本发送路径的路由模块组成。注意力变换器用在边的操作上。

分支路由模块

如上面所说,使用分支路由模块来决定将样本传导到哪个孩子节点,每个路由节点在第k层使用一个1×1卷积层,之后跟一个基于SE块改进的全局上下文块,从而更好的整合上下文信息。之后使用残差连接后,进行全局平均汇聚操作、逐项平方根、批量规范化、全连接层,之后使用sigmoid函数输出一个决定发送到左分支或者右分支的概率

注意力转换器

注意力卷积二元神经树 - 图2
注意力转换器主要用于强制网络捕获判别性特征,因为经验感受野远远小于深度网络中理论感受野,其中判别性特征应当由更大感受野的新层捕获。本文于是提出了ASPP模块集成到注意力转换器中。具体来说,ASPP为每个特征图提供了不同尺度、不同感受野和不同注意力模块。多尺度特征图通过四个不同扩张率的卷积输出后进行连接操作,之后再使用1×1卷积进行特征融合,加入SE模块后得到输出。
ASPP模块后加入一个注意力模块、批量规范化和全局平均汇聚层厚生成单通道注意力图,从而提取到判别性部件。

结果预测

注意力卷积二元神经树 - 图3
每个叶子节点都会对样本进行一次预测,根据每一个叶子节点的累计概率来赋予其预测概率的权重,总的预测结果为所有叶子节点的加权和。通过可视化发现,各个叶子节点的注意力图可以提取不同的判别性区域的信息。

总结

本文算是将决策树的方法用于细粒度图像识别的一种尝试,不过本文发表于2020年,但是目前这种方法无论是精度、思路、可视化效果、可拓展性上都已经跟不上潮流。
本文相当于为每个节点生成一个卷积神经网络网络,在预测时,每个节点都需要处理以此样本,同时多尺度的特征图和多比例的卷积核加重了计算量。通过可视化发下,判别性部件的提取效果也不是很理想,不过精度在2019年可以达到最先进水平。
本文提出的多尺度特征图和多比例卷积核是卷积神经网络里常用的方法,不过多比例卷积核在Transformer中被多头注意力机制替代,目前尚未了解到多尺度方法在Transformer中的应用,可以尝试融合在Transformer中。