阅读:2019.8.7-8.14
期刊:arxiv.org
引用:Redmon, J., and Farhadi, A. Yolov3: An incremental improvement. arXiv preprint
arXiv:1804.02767. 2018.


YOLO V3: An Incremental Improvement - 图1
图6.1 YOLO V3结构[2]

1 YOLO V3概述


YOLO V3是在YOLO V1、YOLO V2的基础上的改进,结构如图6.1所示。主要改进的地方有:
(1)设计了新的主干网络Darknet-53,更深的网络设计使其能够提取更丰富的特征信息;
(2)换了分类器,YOLO V3采用“逻辑回归”对每个bbox进行分类,因为一个bbox可能有多个标签,故需要“多标签分类”,而softmax对每个bbox只能判定为一个类别;
(3)每个cell生成3个bbox,但由于引入了FPN思想,共3个层级,每个层级的特征整合后都送入检测器中,所以生成的总bbox数量会比YOLO V1\V2更多;
(4)借鉴FPN的思想,从不同层次的特征图中获取不同级别的特征。
从YOLO V2主要保留的:
(1)通过划分单元格进行检测;
(2)采用“LReLU”激活函数;
(3)多尺度训练。
YOLO V3与同时期的几种检测算法的性能比较如图6.2所示。
YOLO V3: An Incremental Improvement - 图2
图6.2 YOLO V3与同时期的几种检测算法的性能比较

2 YOLO V3创新点


大部分用的是当时新出的技术对YOLO V2改进。

3 Bounding Box Prediction


3.1 生成bbox

生成方法与YOLO V2保持一致,但每个cell生成9个anchor box,而非3个。具体设计参考5.3.4,5.4.5。

3.2 计算anchor box置信分数

使用“logistic regression”预测每个anchor box的“objectness score”。这一步放在检测之前进行,根据置信分数能够筛选一部分anchor box,减少检测的计算量:
(1)如果anchor box与gt_box的overlap最大,则该anchor box的objectness score=1,表明anchor box内有物体;
(2)如果anchor box与gt_box的overlap不是最大的,但超过了设定的阈值(0.5),则将其忽略,不送如下一步的检测中;
(3)每个cell生成3个anchor box,从中选取objectness score最高的那个送入到检测器中。

3.3 anchor box与gt_box匹配策略

每个gt_box只匹配一个anchor box,如果anchor box没有匹配到gt_box,则只计算其“objectness score loss”,不计算分类、定位损失。具体的匹配策略可参考4.3.3的“gt_box与bbox之间的匹配”。

4 Class Prediction


每个cell的bbox可能有多个类别标签,所以需要“多标签分类”。YOLO V2使用softmax对每个bbox只能判定为一个类别,不适用于“多标签分类”。YOLO V3中采用“logistic classifiers”,能够满足“多标签分类”的要求。

5 Predictions Across Scales


YOLO V3预测三种scale的bbox,采用与FPN类似的“特征金字塔”结构,先“从下到上”提取特征,再“从上到下”将不同层次的特征图与相应“从下到上”的特征图逐级(3个级别)整合后分别送入3个检测器中,如图6.3所示。较浅特征图分辨率高、细粒度信息更多,但语义信息较弱;深层特征图分辨率低,但语义信息强。将不同层次特征图整合后,能够使浅层特征图也获得较强的语义信息。
detector1, detector2, detector3输出:
深度都为255:3*(5 + 80),3为每个cell生成的anchor box80为COCO的类别数)
bbox边长为:13:26:52
YOLO V3: An Incremental Improvement - 图3
图6.3 YOLO V3多尺度特征图整合示意

6 Feature Extractor


Darknet-53:改进Darknet-19,添加了跳跃结构,从而添加了更多的卷积层;使用s=2的conv进行下采样操作,从而去除了池化层;网络总的下采样步长和YOLO V2一样,为32。Darknet-53与Darknet-19结构设计如表6.1所示。
表6.1 Darknet-53与Darknet-19结构设计
YOLO V3: An Incremental Improvement - 图4
几种主干网络在ImageNet上的分类和性能比较如表6.1所示。
表6.1 几种主干网络在ImageNet上的分类、性能比较
YOLO V3: An Incremental Improvement - 图5

7 YOLO V3思维导图


以思维导图的方式,将YOLO V3各个知识点串联起,有利于构建YOLO V3的知识树。如图6.4所示。
YOLO V3: An Incremental Improvement - 图6
图6.4 YOLO V3思维导图

8 参考文献


[1] Redmon, J., and Farhadi, A. Yolov3: An incremental improvement. arXiv preprint
arXiv:1804.02767. 2018.
[2] yolo系列之yolo v3【深度解析】
https://blog.csdn.net/leviopku/article/details/82660381