阅读：2019.8.7-8.14
期刊：arxiv.org
引用：Redmon, J., and Farhadi, A. Yolov3: An incremental improvement. arXiv preprint
arXiv:1804.02767. 2018.

YOLO V3: An Incremental Improvement - 图1
图6.1 YOLO V3结构[2]

1 YOLO V3概述

YOLO V3是在YOLO V1、YOLO V2的基础上的改进，结构如图6.1所示。主要改进的地方有：
（1）设计了新的主干网络Darknet-53，更深的网络设计使其能够提取更丰富的特征信息；
（2）换了分类器，YOLO V3采用“逻辑回归”对每个bbox进行分类，因为一个bbox可能有多个标签，故需要“多标签分类”，而softmax对每个bbox只能判定为一个类别；
（3）每个cell生成3个bbox，但由于引入了FPN思想，共3个层级，每个层级的特征整合后都送入检测器中，所以生成的总bbox数量会比YOLO V1\V2更多；
（4）借鉴FPN的思想，从不同层次的特征图中获取不同级别的特征。
从YOLO V2主要保留的：
（1）通过划分单元格进行检测；
（2）采用“LReLU”激活函数；
（3）多尺度训练。
YOLO V3与同时期的几种检测算法的性能比较如图6.2所示。
YOLO V3: An Incremental Improvement - 图2
图6.2 YOLO V3与同时期的几种检测算法的性能比较

2 YOLO V3创新点

大部分用的是当时新出的技术对YOLO V2改进。

3 Bounding Box Prediction

3.1 生成bbox

生成方法与YOLO V2保持一致，但每个cell生成9个anchor box，而非3个。具体设计参考5.3.4，5.4.5。

3.2 计算anchor box置信分数

使用“logistic regression”预测每个anchor box的“objectness score”。这一步放在检测之前进行，根据置信分数能够筛选一部分anchor box，减少检测的计算量：
（1）如果anchor box与gt_box的overlap最大，则该anchor box的objectness score=1，表明anchor box内有物体；
（2）如果anchor box与gt_box的overlap不是最大的，但超过了设定的阈值（0.5），则将其忽略，不送如下一步的检测中；
（3）每个cell生成3个anchor box，从中选取objectness score最高的那个送入到检测器中。

3.3 anchor box与gt_box匹配策略

每个gt_box只匹配一个anchor box，如果anchor box没有匹配到gt_box，则只计算其“objectness score loss”，不计算分类、定位损失。具体的匹配策略可参考4.3.3的“gt_box与bbox之间的匹配”。

4 Class Prediction

每个cell的bbox可能有多个类别标签，所以需要“多标签分类”。YOLO V2使用softmax对每个bbox只能判定为一个类别，不适用于“多标签分类”。YOLO V3中采用“logistic classifiers”，能够满足“多标签分类”的要求。

5 Predictions Across Scales

YOLO V3预测三种scale的bbox，采用与FPN类似的“特征金字塔”结构，先“从下到上”提取特征，再“从上到下”将不同层次的特征图与相应“从下到上”的特征图逐级（3个级别）整合后分别送入3个检测器中，如图6.3所示。较浅特征图分辨率高、细粒度信息更多，但语义信息较弱；深层特征图分辨率低，但语义信息强。将不同层次特征图整合后，能够使浅层特征图也获得较强的语义信息。
detector1, detector2, detector3输出：
深度都为255：3*（5 + 80），3为每个cell生成的anchor box80为COCO的类别数）
bbox边长为：13:26:52
YOLO V3: An Incremental Improvement - 图3
图6.3 YOLO V3多尺度特征图整合示意

6 Feature Extractor

Darknet-53：改进Darknet-19，添加了跳跃结构，从而添加了更多的卷积层；使用s=2的conv进行下采样操作，从而去除了池化层；网络总的下采样步长和YOLO V2一样，为32。Darknet-53与Darknet-19结构设计如表6.1所示。
表6.1 Darknet-53与Darknet-19结构设计
YOLO V3: An Incremental Improvement - 图4
几种主干网络在ImageNet上的分类和性能比较如表6.1所示。
表6.1 几种主干网络在ImageNet上的分类、性能比较

7 YOLO V3思维导图

以思维导图的方式，将YOLO V3各个知识点串联起，有利于构建YOLO V3的知识树。如图6.4所示。
YOLO V3: An Incremental Improvement - 图6
图6.4 YOLO V3思维导图

8 参考文献

[1] Redmon, J., and Farhadi, A. Yolov3: An incremental improvement. arXiv preprint
arXiv:1804.02767. 2018.
[2] yolo系列之yolo v3【深度解析】
https://blog.csdn.net/leviopku/article/details/82660381