有趣单词
novel: 新颖的
tradeoff: 权衡
distinct: 截然不同的
leverage: 利用
robustness: 鲁棒性
vocabulary: 词汇表
hinge: 使以什么为条件
convergence:收敛
decouple: 使分离
fine-grained:细粒度的
robust: 健壮的
值得注意的
softmax将输出转为概率分布,其前提是各个类别是互相排斥的;
yolov2的改进
yolov1相对来说,定位的准确度比较差;
- yolov2主要目的就是在保证分类准确率的情况下,提高定位的准确度;
- 提高准确率不是以更深的网络为代价,而是简化网络,是的表征学习更简单;
- 能够识别的类别变多,yolov1为20,yolov2扩展到9000类;
- 利用已有的分类目标的数据集来扩充目标检测的数据集;(?)
- yolov1直接回归检测框坐标,yolov2采用了anchor boxes
- 采用anchor boxes之后,就用anchor boxes去预测类(仍旧是one-stage,就是位置回归方式不同了),而不是同时实现位置回归和类别分类;
- anchor boxes通过k-means进行聚类得到,权衡之后k取值为5;(之前的anchor boxes都是通过人进行挑选的)
- 聚类产生的5个anchor boxes作为,boxes长宽的初始值;
- 后期预测boxes的长宽相对于聚类的anchor boxes进行偏移(参考下图所示);
- yolov2的坐标预测和yolov1类似,还是预测中心点相对于格子的偏移;(每个格子预测5个boxes)
- 网络中有short-cut实现不同层的feature融合;(通常来说,浅层网络的分辨率更高)
- 此操作的目的就是为了适应对不同size目标的检测;
- 不同层的特征直接通过通道进行连接;
- 对于feature map size不同的需要对高分辨率的特征进行reshape;
- 比如26261024和13132048的连接,需要将前者变为13134096;
- 多尺度训练;
- 每10个epoch改变输入图片的size,最小为360360,最大为608608;
- 这说明网络不包括全连接层;
- yolov2每个grid包括5个boxes,每个boxes预测一个物体;
- 5*(5+20)
- 综合目标检测和分类任务的图片进行训练;
- 对于目标检测的数据,对整个损失函数进行反向传播;
- 对于分类任务的数据,只对网络损失函数中的分类部分进行反向传播;