机器学习 - FPN详解_WZZ18191171661的博客-CSDN博客_fpn - 《Computer Vision》

1. 图像金字塔
2. 为什么需要构造特征金字塔？
3. 为什么要提出 FPN 算法？
1. 利用 FPN 构建 Faster R-CNN 检测器步骤
2. 为什么 FPN 能够很好的处理小目标？
1. FPN 效果定量评估
2. FPN 效果定性评估

论文链接：论文链接

论文代码：Caffe 版本代码链接

1. 图像金字塔

FPN详解_WZZ18191171661的博客-CSDN博客_fpn - 图1

图 1 图像金字塔

FPN详解_WZZ18191171661的博客-CSDN博客_fpn - 图2

图 2 高斯金字塔效果

如上图所示，这是一个图像金字塔，做 CV 的你肯定很熟悉，因为在很多的经典算法里面都有它的身影，比如 SIFT、HOG 等算法。我们常用的是高斯金字塔，所谓的高斯金字塔是通过高斯平滑和亚采样获得一些下采样图像，也就是说第 K 层高斯金字塔通过平滑、亚采样操作就可以获得 K+1 层高斯图像，高斯金字塔包含了一系列低通滤波器，其截止频率从上一层到下一层是以因子 2 逐渐增加，所以高斯金字塔可以跨越很大的频率范围。总之，我们输入一张图片，我们可以获得多张不同尺度的图像，我们将这些不同尺度的图像的 4 个顶点连接起来，就可以构造出一个类似真实金字塔的一个图像金字塔。通过这个操作，我们可以为 2 维图像增加一个尺度维度（或者说是深度），这样我们可以从中获得更多的有用信息。整个过程类似于人眼看一个目标由远及近的过程（近大远小原理）。如图 2 所示，我们可以看到一个图像金字塔，中间是原始图像，最上边是下采样后的图像，最下边是上采样后的图像。你可以将其对应到图 1 中的不同层中。

2. 为什么需要构造特征金字塔？

图 3 特征金字塔

前面已经提到了高斯金字塔，由于它可以在一定程度上面提高算法的性能，因此很多经典的算法中都包含它。但是这些都是在传统的算法中使用，当然也可以将这种方法直应用在深度神经网络上面，但是由于它需要大量的运算和大量的内存。但是我们的特征金字塔可以在速度和准确率之间进行权衡，可以通过它获得更加鲁棒的语义信息，这是其中的一个原因。

·如上图所示，我们可以看到我们的图像中存在不同尺寸的目标，而不同的目标具有不同的特征，利用浅层的特征就可以将简单的目标的区分开来；利用深层的特征可以将复杂的目标区分开来；这样我们就需要这样的一个特征金字塔来完成这件事。图中我们在第 1 层（请看绿色标注）输出较大目标的实例分割结果，在第 2 层输出次大目标的实例检测结果，在第 3 层输出较小目标的实例分割结果。检测也是一样，我们会在第 1 层输出简单的目标，第 2 层输出较复杂的目标，第 3 层输出复杂的目标。

3. 为什么要提出 FPN 算法？

FPN详解_WZZ18191171661的博客-CSDN博客_fpn - 图4

图 4 不同方案的金字塔

识别不同大小的物体是计算机视觉中的一个基本挑战，我们常用的解决方案是构造多尺度金字塔。
如上图 a 所示，这是一个特征图像金字塔，整个过程是先对原始图像构造图像金字塔，然后在图像金字塔的每一层提出不同的特征，然后进行相应的预测（BB 的位置）。这种方法的缺点是计算量大，需要大量的内存；优点是可以获得较好的检测精度。它通常会成为整个算法的性能瓶颈，由于这些原因，当前很少使用这种算法。
如上图 b 所示，这是一种改进的思路，学者们发现我们可以利用卷积网络本身的特性，即对原始图像进行卷积和池化操作，通过这种操作我们可以获得不同尺寸的 feature map，这样其实就类似于在图像的特征空间中构造金字塔。实验表明，浅层的网络更关注于细节信息，高层的网络更关注于语义信息，而高层的语义信息能够帮助我们准确的检测出目标，因此我们可以利用最后一个卷积层上的 feature map 来进行预测。这种方法存在于大多数深度网络中，比如 VGG、ResNet、Inception，它们都是利用深度网络的最后一层特征来进行分类。这种方法的优点是速度快、需要内存少。它的缺点是我们仅仅关注深层网络中最后一层的特征，却忽略了其它层的特征，但是细节信息可以在一定程度上提升检测的精度。
因此有了图 c 所示的架构，它的设计思想就是同时利用低层特征和高层特征，分别在不同的层同时进行预测，这是因为我的一幅图像中可能具有多个不同大小的目标，区分不同的目标可能需要不同的特征，对于简单的目标我们仅仅需要浅层的特征就可以检测到它，对于复杂的目标我们就需要利用复杂的特征来检测它。整个过程就是首先在原始图像上面进行深度卷积，然后分别在不同的特征层上面进行预测。它的优点是在不同的层上面输出对应的目标，不需要经过所有的层才输出对应的目标（即对于有些目标来说，不需要进行多余的前向操作），这样可以在一定程度上对网络进行加速操作，同时可以提高算法的检测性能。它的缺点是获得的特征不鲁棒，都是一些弱特征（因为很多的特征都是从较浅的层获得的）。
讲了这么多终于轮到我们的 FPN 啦，它的架构如图 d 所示，整个过程如下所示，首先我们在输入的图像上进行深度卷积，然后对 Layer2 上面的特征进行降维操作（即添加一层 1x1 的卷积层），对 Layer4 上面的特征就行上采样操作，使得它们具有相应的尺寸，然后对处理后的 Layer2 和处理后的 Layer4 执行加法操作（对应元素相加），将获得的结果输入到 Layer5 中去。其背后的思路是为了获得一个强语义信息，这样可以提高检测性能。认真的你可能观察到了，这次我们使用了更深的层来构造特征金字塔，这样做是为了使用更加鲁棒的信息；除此之外，我们将处理过的低层特征和处理过的高层特征进行累加，这样做的目的是因为低层特征可以提供更加准确的位置信息，而多次的降采样和上采样操作使得深层网络的定位信息存在误差，因此我们将其结合其起来使用，这样我们就构建了一个更深的特征金字塔，融合了多层特征信息，并在不同的特征进行输出。这就是上图的详细解释。（个人观点而已）

1. 利用 FPN 构建 Faster R-CNN 检测器步骤

首先，选择一张需要处理的图片，然后对该图片进行预处理操作；
然后，将处理过的图片送入预训练的特征网络中（如 ResNet 等），即构建所谓的 bottom-up 网络；
接着，如图 5 所示，构建对应的 top-down 网络（即对层 4 进行上采样操作，先用 1x1 的卷积对层 2 进行降维处理，然后将两者相加（对应元素相加），最后进行 3x3 的卷积操作，最后）；
接着，在图中的 4、5、6 层上面分别进行 RPN 操作，即一个 3x3 的卷积后面分两路，分别连接一个 1x1 的卷积用来进行分类和回归操作；
接着，将上一步获得的候选 ROI 分别输入到 4、5、6 层上面分别进行 ROI Pool 操作（固定为 7x7 的特征）；
最后，在上一步的基础上面连接两个 1024 层的全连接网络层，然后分两个支路，连接对应的分类层和回归层；

FPN详解_WZZ18191171661的博客-CSDN博客_fpn - 图5

图 5 FPN 整体架构

注：层 1、2、3 对应的支路就是 bottom-up 网络，就是所谓的预训练网络，文中使用了 ResNet 网络；由于整个流向是自底向上的，所以我们叫它 bottom-up；层 4、5、6 对应的支路就是所谓的 top-down 网络，是 FPN 的核心部分，名字的来由也很简单。

2. 为什么 FPN 能够很好的处理小目标？

FPN详解_WZZ18191171661的博客-CSDN博客_fpn - 图6

图 6 FPN 处理小目标

如上图所示，FPN 能够很好地处理小目标的主要原因是：

FPN 可以利用经过 top-down 模型后的那些上下文信息（高层语义信息）；
对于小目标而言，FPN 增加了特征映射的分辨率（即在更大的 feature map 上面进行操作，这样可以获得更多关于小目标的有用信息），如图中所示；

1. FPN 效果定量评估

FPN详解_WZZ18191171661的博客-CSDN博客_fpn - 图7

表 1 Faster R-CNN+FPN 结果

如上表所示，我们可以看到当我们使用相同的预训练网络、相同的 RPN 网络、Fast R-CNN 使用不同的方法时，我们的特征层由原来的 C4 或者 C5 变化为现在的特征集合 Pk，同时 FPN 方案使用了横向连接（lateral）和 top-down 模型，算法的性能有了大幅度上升，与 a 相比提升了 2.2 个百分点，与 b 相比提升了 4.0 个百分点（AP@0.5）；对于 APs，提升了 5.9 个百分点；对于 APm，提升了 5.3 个百分点。这也说明了 FPN 能够提升小目标的检测效果。

FPN详解_WZZ18191171661的博客-CSDN博客_fpn - 图8

表 2 FPN 高效训练结果

观察表 2，我们可以看到使用 FPN 的 Fast R-CNN+FPN 和没有使用 FPN 的 Fast R-CNN 方案之间的差别，首先我们的特征维度由 1024 减少到 256 维（这样可以大大的减少一些运算量，包括前向和反向运算）；我们利用 2 个 MLP 层取代了 Conv5，作为我们的头分类器；我们的训练时间由原来的 44.6 小时减少到现在的 10.6 小时，速度大概提升了 4 倍；我们的推理时间由原来的 0.32s 减少到现在的 0.15s；最后，我们的准确率提升了 2.0 个百分点。主要的原因是因为我们通过 FPN 获得了更加鲁邦的高层语义特征，它使得我们的学习过程更加高效。

FPN详解_WZZ18191171661的博客-CSDN博客_fpn - 图9