Very Deep Convolutional Networks for Large-Scale Image Recognition
VGGNET.pdf
https://blog.csdn.net/zzq060143/article/details/99442334
这篇文章是以比赛为目的——解决ImageNet中的1000类图像分类和 localization(这里需要注意 localization 和 detection 的区别. localization是找到某个物体的检测框,而detection是找到所有物体的检测框,后文会详细说明.)
作者对六个网络的实验结果在深度对模型影响方面,进行了感性分析(越深越好),实验结果是16和19层的VGGNet(VGG代表了牛津大学的Oxford Visual Geometry Group,该小组隶属于1985年成立的Robotics Research Group.
VGGNet的两个特点:层数更深更宽、卷积核更小. 因为卷积核变小全部改用3×3大小(性能最好的两个网络:实验D(VGG16)和实验E(VGG19)),小卷积核的使用带来参数量减少,可以更加steadily地增加层数得同时不会太过于担心计算量的暴增.
因为VGGNet在AlexNet之后,有必要先说一下问题的背景:自从AlexNet将深度学习的方法应用到图像分类取得state of the art的惊人结果后,大家都竞相效仿并在此基础上做了大量尝试和改进,先从两个性能提升的例子说起:
- 小卷积核。在第一个卷积层用了更小的卷积核和卷积stride(Zeiler & Fergus, 2013; Sermanet et al., 2014);
- 多尺度。训练和测试使用整张图的不同尺度(Sermanet et al., 2014; Howard, 2014)。
作者虽然说自己是在保证其他一致,改变深度情况来提升效果的,但实际上也是集大成(抄袭这两个:用更小卷积核;多尺度训练和测试)。算是作者整个实验的motivation吧,既然如此,或许作者想:我再试试深度,如果效果好,就发表出来又水篇文章(毕竟不能没有自己的工作),哈哈哈!