- 分享主题:CV, Transformer
- 论文标题:DeiT III: Revenge of the ViT
- 论文链接:https://arxiv.org/pdf/2204.07118.pdf
1.Summary
This is a paper about applying transformer to CV field. The DeiT III model proposed in this paper is an optimization of the ViT model. Unlike the DeiT model, DeiT III does not change the model structure of ViT, but optimizes the training strategy, including regularization, data enhancement, etc., and proposes the Simple Random Crop (SRC) method to replace the original Random Resized Crop (RRC) method. Because some previous training strategies may not be suitable for the transformer model. The final experimental results surpass the deit and CNN models. In order to deepen my understanding of this paper, I can read some papers on regularization and data enhancement.2.你对于论文的思考
这篇文章提出的DeiT III模型是对ViT模型的优化,但是并没有像DeiT那样修改模型的结构,而是优化了训练策略,使用了Stochastic depth和LayerScale的正则化方法,使用了比较简单的数据增强策略3-Augment来代替原先的比较复杂的数据增强策略RandAugment,并提出了Simple Random Crop (SRC)的裁剪方法来取代原先的Random Resized Crop (RRC)方法,还通过增加训练的epoch数量和改变训练集的图片大小来提升模型效果。3. 其他
3.1 训练策略
3.1.1 正则化
Stochastic depth
这是对残差结构的优化,以一定的概率去掉残差映射、只保留恒等映射。LayerScale
下面的左图是普通的残差结构,右图是LayerScale的方法,对输入的每一个通道根据λ矩阵的值进行缩放,并且这个矩阵中的缩放系数是可以学习的,初始化为一个很小的值(0-1),既不为0,也不为1。3.1.2 数据增强
3-Augment
使用3-Augment的数据增强方法,即使用以下三种数据增强方法中的一种:
(1)Grayscale(灰度化)
(2)Solarization(过度曝光)
(3)Gaussian Blur(高斯模糊)实验效果
与其它数据增强方法的对比:
· 消融实验3.1.3 随机裁剪
Simple Random Crop (SRC)
为了训练时数据处理方便,会先把数据集中的图片变成一样的大小,原本用的方法为Random Resized Crop (RRC),这篇文章提出了Simple Random Crop (SRC)的方法来取代RRC。
Random Resized Crop (RRC):首先随机裁剪大小和裁剪位置,然后从原图中进行裁剪,并resize到固定大小。
Simple Random Crop (SRC):首先将图像的最短边resize到目标大小,然后按照目标大小从图像中随机裁剪一个区域。实验效果
SRC的效果要比RRC好。3.1.4 增加训练的epoch
延长训练时的epoch可以提升模型效果。3.1.5 FixRes(Fix Resolution)
先在一个较小的分辨率下训练,然后在目标分辨率下进行微调,因为这样可能起到了正则化的作用,可以防止过拟合。3.2 总体实验效果
左边是在ImageNet-1k上进行训练,右边是在ImageNet-21k上进行预训练,然后在ImageNet-1k上进行微调,最终都是在ImageNet-1k上进行测试,可以看出,DeiT III的效果比DeiT和CNN模型更好。