小目标 - 小目标 - 《深度学习》

定义
- 基于相对尺度
- 基于绝对尺度
难点
数据集
- VisDrone
方法

定义

基于相对尺度

同一类别中所有目标实例的相对面积，即边界框面积与图像面积之比的中位数在0.08%~0.58%之间。除此以外，较为常见的还有以下几种：
①目标边界框的宽高与图像的宽高比例小于一定值，较为通用的比例值为0.1；
②目标边界框面积与图像面积的比值开方小于一定值，较为通用的值为0.03；
③根据目标实际覆盖像素与图像总像素之间比例来对小目标进行定义。

基于绝对尺度

MS COCO数据集，将小目标定义为分辨率小于32像素×32像素的目标。
航空图像数据集DOTA与人脸检测数据集WIDER FACE中都将像素值范围在[10，50]之间的目标定义为小目标。
在行人识别数据集CityPersons中，将小目标定义为了高度小于75像素的目标。
基于航空图像的小行人数据集TinyPerson则将小目标定义为像素值范围在［20，32］之间的目标。

难点

可利用特征较少

小目标相比于大/中目标分辨率低，信息较少，难以提取到具有鉴别力的特征。

定位精度要求高

小目标在图像中位置过小且极易受到环境干扰，网络预测时偏移一个像素则对小目标的影响是巨大的。

现有数据集中小目标占比少

现有数据集较少关注小目标这一特别类型。同时，小目标不易标注，人力成本巨大，而且对误差更为敏感。

样本不均衡

训练时通过设定阈值来判断锚框是否属于正样本，这样会导致不同尺寸目标的样本不均衡问题。因此，当人工设定的锚框与真实边框相差较大时，会导致模型忽略小目标的检测。

小目标聚集

小目标更容易出现聚集的现象，这时网络模型的预测边框可能会因非极大值抑制过滤掉大量正确边框，导致漏掉小目标，或是边框距离过近，导致模型难以收敛。

网络结构

目前现有算法针对小目标特性的优化设计不多，加之小目标自身特性所带来的难度，导致现有算法在小目标检测上普遍表现不佳。

数据集

VisDrone

400 video clips formed by 265,228 frames and 10,209 static images, captured by various drone-mounted cameras, covering a wide range of aspects including location (taken from 14 different cities separated by thousands of kilometers in China), environment (urban and country), objects (pedestrian, vehicles, bicycles, etc.), and density (sparse and crowded scenes). Note that, the dataset was collected using various drone platforms (i.e., drones with different models), in different scenarios, and under various weather and lighting conditions. These frames are manually annotated with more than 2.6 million bounding boxes or points of targets of frequent interests, such as pedestrians, cars, bicycles, and tricycles. Some important attributes including scene visibility, object class and occlusion, are also provided for better data utilization.
地址：http://aiskyeye.com/

方法

多尺度学习
多尺度是同时结合深层语义信息和浅层表征信息对小目标进行预测，是一种提升小目标检测性能的有效策略。
上下文学习
上下文关系通常指场景中目标与场景或者目标与目标之间的约束和依赖关系，上下文学习即使学习这种关系，以此充分利用了图像中与目标相关的信息，能够有效提升小目标检测的性能。基于上下文学习可分为两类：①隐式上下文特征，即指目标区域周围的背景特征或全局的场景特征。②显示上下文推理，指利用场景中明确的上下文信息来辅助推断目标的位置或类别。
无锚机制
一种摆脱锚框机制的思路是将目标检测任务转换为关键点的估计，即基于关键点的目标检测方法，该方法主要包含两个大类：①基于角点的检测，通过对从卷积特征图中学习到的角点分组来预测目标边界框。②基于中心的检测[3]。预测出左上角和右下角的角点以及中心关键点，然后通过角点匹配确定边界框，最后利用预测的中心点消除角点不匹配引起的不正确的边界框。
优化损失函数
在网络的训练过程中，小目标更容易受到随机误差的影响。[4]提出一种依据目标尺寸设定不同权重的损失函数。[5]将级联思想与焦距损失相结合，提出了Cascade RetinaNet。[6]提出了一种考虑前景背景之间平衡的损失函数，均有效提升了小目标的检测性能。

增加小目标检测层

Transformer Prediction Heads (TPH)集成到YOLOv5

将CBAM集成到YOLOv5

用Bi-FPN替换PAN-Net

Reference
[1] https://mp.weixin.qq.com/s/fGe1pJnvU0bUt_dxcSXwHQ
[2] https://mp.weixin.qq.com/s/CR-tcgfOpfOPCGasXfOOJQ