简介
本文提出了一种新颖的自我监督机制来定位输入图像的重要部件,并且不需要边界框、部件注释。作者称之为导航-老师-检查协同网络(NTS,Navigator-Teacher-Scrutinizer Network)。
该网络由导航器、老师、检查器三个部分组成。作者为该网络设计了一种全新的训练方式。首先导航器可以在老师的指导下找出辨别性部件的区域,随后检查器检查导航器提出的区域进行预测。该网络各个部件之间可以相互学习,共同进步。同时该网络可以进行端到端训练,同时可以输出部件的区域的锚框。
被认定为真是类的区域理应具有更多信息,所以本文设计了一个新的损失函数,来优化每个选定区域的信息量,使之与真实类别概率具有相同的顺序,作者将图片的真是类别作为部件的真是类别
实验表明,该架构在鸟、狗、飞机数据集上达到了最先进水平。
方法
导航器—老师
为了找出信息量最大的区域,定义了信息量函数和近似置信度函数,拥有更高信息量的区域应该有更高的置信度。导航器对每个像素生成若干锚框,再按大小排序对区域使用非极大值抑制(NMS),取前概率最大的前M个锚框,使用老师网络对输出结果进行预测,使老师网络预测的置信度排序和锚框的信息量排序尽可能相同,并用交叉熵优化老师网络。
导航器—检查器
对于原始图像,通过导航器找出的部分区域缩放到统一尺寸后,送入特征提取网络提取特征,将提取到的局部特征和全局特征连接在一起后进行分类预测。
损失函数
导航器——老师之间排序错误的损失,使用铰链损失计算,其中需要老师预测的置信度排序去匹配真实信息量排序。
老师——检查器之间置信度差距的损失,计算各个锚框的置信度和全局特征置信度的交叉熵损失,需要局部区域的置信度匹配全局信息置信度
检查器预测损失,对检查器最终输出结果应用交叉熵损失。
总结
本文提出的架构是基于部件提取的分类方法,不过创新处在于使用老师网络来协助检查器找出锚框,然后通过和全局信息的的置信度进行比对来优化老师网络,找出让老师协助找出更有价值的预测框,但是和传统的锚框提取法RPN比起来,结果未知,作者只是将该架构和其他传统CNN网络进行比较,性能达到了当时2018年的最先进水平。这种使用老师架构协助的方法也受到了知识蒸馏的启发,以后可以尝试使用在工作中。