检测网络中 RPN 的优点和缺点?
检测任务中为了解决正负样本不均衡,除了 focal loss 和 OHEM 还有什么方法?(样本不均衡的处理方法)
OHEM(在线困难样本挖掘)、S-OHEM、A-Fast-RCNN、Focal Loss、GHM(梯度均衡化)
论文:Focal Loss
https://zhuanlan.zhihu.com/p/60612064
one-stage 的精度不如 two-stage 的精度,
主要的原因是训练过程中样本极度不均衡造成的.
目标检测任务中,样本包括哪些类别呢?
- 正样本:标签区域内的图像区域,即目标图像块
- 负样本:标签区域以外的图像区域,即图像背景区域
- 易分正样本:容易正确分类的正样本,在实际训练过程中,该类占总体样本的比重非常高,单个样本的损失函数较小,但是累计的损失函数会主导损失函数
- 易分负样本:容易正确分类的负样本,在实际训练过程中,该类占的比重非常高,单个样本的损失函数较小,但是累计的损失函数会主导损失函数
- 难分正样本:错分成负样本的正样本,这部分样本在训练过程中单个样本的损失函数教高,但是该类占总体样本的比例较小
- 难分负样本:错分成正样本的负样本,这部分样本在训练过程中单个样本的损失函数教高,但是该类占总体样本的比例较小
样本不平衡问题?
所谓的样本不平衡问题是指在训练的时候各个类别的样本数量极不均衡.以基于深度学习的单阶段目标检测为例,样本类别不均衡主要体现在两方面:正负样本不均衡(正负样本比例达到 1:1000)和难易样本不均衡(简单样本主导 loss).一般在目标检测任务框架中,保持正负样本的比例为 1:3(经验值)
对于一个样本,如果它能很容易地被正确分类,那么这个样本对模型来说就是一个简单样本,模型很难从这个样本中得到更多的信息;而对于一个分错的样本,它对模型来说就是一个困难的样本,它更能指导模型优化的方向。对于单阶段分类器来说,简单样本的数量非常大,他们产生的累计贡献在模型更新中占主导作用,而这部分样本本身就能被模型很好地分类,所以这部分的参数更新并不会改善模型的判断能力,这会导致整个训练变得低效。