一、问题与现状

本文重新考虑[13]中提出的global average pooling layer,发现其有出色的定位能力(remarkable localization
ability)。这项技术作为均值而提出,用于调整训练过程。我们发现它能够学到 可定位的深度表征,可以应用各种任务。
论文提出的网络在不同任务上都有定位具有区别性的图片区域,即使网络并不是特定为该任务训练的。

二、介绍

global average pooling 常用做 正则项,防止过拟合。在我们的实验中,

三、相关工作

weakly-supervised object localization(弱监督物体定位):

全局最大池化:定位object的一个点。
全局平均池化:识别object的整体轮廓。背后的直觉是,相比较最大池化来说,平均池化的损失考虑的是所有具有区别性的图片区域。
class activation map :加权激活图。

visualizing CNN(CNN可视化):

可视化CNN便于理解CNN的属性。
很多文献都忽略了一个问题:全连接不能绘制出图片的全部,本文把全连接移除且performance基本不变,这样做更 易于理解论文提出的网络。

四、模型

  1. ![image.png](https://cdn.nlark.com/yuque/0/2021/png/5365888/1611911384455-75bccac0-5820-4dd5-b42f-c6131a0391ad.png#align=left&display=inline&height=324&margin=%5Bobject%20Object%5D&name=image.png&originHeight=746&originWidth=1414&size=367211&status=done&style=none&width=615)<br />论文的核心是 **class activation maps(CAM)** 。<br /> ![](https://cdn.nlark.com/yuque/__latex/7047822382ec39c98e96a7d815c13603.svg#card=math&code=f_k%28x%2Cy%29&height=20&width=54)表示第k个特征图的![](https://cdn.nlark.com/yuque/__latex/90cbc22edf225adf8a68974f51227f05.svg#card=math&code=%28x%2Cy%29&height=20&width=38)坐标位置,![](https://cdn.nlark.com/yuque/__latex/c845e2700090a7188e46f7657b06e911.svg#card=math&code=F%5Ek%3D%5Csum_%7Bx%2Cy%7Df_k%28x%2Cy%29&height=42&width=125)<br />给定类别![](https://cdn.nlark.com/yuque/__latex/4a8a08f09d37b73795649038408b5f33.svg#card=math&code=c&height=12&width=7),softmax的输入是![](https://cdn.nlark.com/yuque/__latex/eb337cf73427fe197ab191863252cccb.svg#card=math&code=S_c%3D%5Csum_k%20w%5Ec_kF_k&height=40&width=105), ![](https://cdn.nlark.com/yuque/__latex/7b27512c66c53b9dc1ababaaf92c9a38.svg#card=math&code=w%5Ec_k&height=20&width=20) 表示类别c 的第k个特征图的重要性。和类别绑定?==>实质上是网络计算的。<br />概率![](https://cdn.nlark.com/yuque/__latex/912c78d7e97354d7e74057561bf26582.svg#card=math&code=P_c%3D%5Cfrac%7Bexp%28S_c%29%7D%7B%5Csum_c%20exp%28S_c%29%7D&height=47&width=129)。<br />定义类别c的**class activation map(CAM)**,![](https://cdn.nlark.com/yuque/__latex/b36833a03caeda1037e69b83217bfae1.svg#card=math&code=M_c%28x%2Cy%29%3D%5Csum_k%20w%5Ec_kf_k%28x%2Cy%29&height=40&width=185),特征图按权重相加。<br />也有![](https://cdn.nlark.com/yuque/__latex/c369522820d65e484c938c4fe0057662.svg#card=math&code=S_c%3D%5Csum_%7Bx%2Cy%7DM_c%28x%2Cy%29&height=42&width=128)

期望每个特征图通过其感受野内(receptive field)的可视化模型而被激活,CAM可以认为是不同坐标位置的可视化模型的加权和。通过upsample把CAM 映射到图片原始大小。如Figure3,可以看到 区别性区域 不同类别不同。
Figure4,使用不同类别c的[2015-CAM]Learning Deep Features for Discriminative Localization - 图1 得到同一个图片的CAM图。

  1. ![image.png](https://cdn.nlark.com/yuque/0/2021/png/5365888/1611912197297-e08cf64a-df79-4a3a-9958-f89673ec8944.png#align=left&display=inline&height=306&margin=%5Bobject%20Object%5D&name=image.png&originHeight=559&originWidth=670&size=789545&status=done&style=none&width=367)![image.png](https://cdn.nlark.com/yuque/0/2021/png/5365888/1611912417875-d8f9f8b3-5cf1-44b5-afbe-64d3e5aa53ef.png#align=left&display=inline&height=314&margin=%5Bobject%20Object%5D&name=image.png&originHeight=664&originWidth=691&size=575760&status=done&style=none&width=327)

Global average pooling (GAP) vs global max pooling (GMP)

  1. 之前的一些工作在弱监督物体定位中使用GMP。直觉上来说GAPGMP的不同,GAPloss 识别的是物体的整个轮廓,而GMP则是识别一个具有区别性的区域。这就是GMP为什么能够找所有的具有区别性的区域。此外,GAP并没有降低model performance

五、实验-弱监督的物体定位

Localization:生成边界框。首先得到CAM图中值top20%的区域,然后选取联通的最大区域。
对比的最后一层是CAM 和 全连接 定位能力的区别。
image.png

六、实验-模式发现(Pattern Discovery)

CAM能够在场景中发现有信息的物体;在弱标签图片下有概念性的定位性

七、实验-可视化

与FC相比,CAM能够有效地图片上高信息区域。

参考
[13] M. Lin, Q. Chen, and S. Yan. Network in network. International Conference on Learning Representations, 2014.
[16] M. Oquab, L. Bottou, I. Laptev, and J. Sivic. Is object localization for free? weakly-supervised learning with convolutional neural networks. Proc. CVPR, 2015.