https://zh-v2.d2l.ai/

学习记录

经典深度学习模型

LeNet -> AlexNet -> VGG -> NiN -> GoogLeNet -> ResNet

  • AlexNet 和 LeNet 结构类似,模型改进地方在于:层数更深,channels 更多
  • VGG 相对于 AlexNet 来说,采用了 VGG 块,使得模型更加规则
  • NiN 主要提出了 1x1 卷积
  • GoogLeNet 采用了并行结构,并大量利用 1x1 卷积进行通道调整
  • ResNet 引入残差结构,使得模型能够做得更深

    所有模型在前面几层是基本类似得,采用大的卷积核,核最大值池化缩小图片尺寸

Fine tune

微调,通常是用于数据集之间比较相似得情况,数据集差异较大,采用微调效果可能不一定好。

正则化方法

Dropout

dropout 一开始提出来时,作者认为这是模型集成。但是,后续研究认为更像是一种正则化方法

weight decay

动手学深度学习 - 图1
求导过程中会产生 动手学深度学习 - 图2 的形式,所以在 SGD 更新时,如果不考虑 loss 梯度,那么权值就一直在往原点靠近(衰减)

BN

BN 表达式:
动手学深度学习 - 图3
其中 动手学深度学习 - 图4动手学深度学习 - 图5 是可学习参数,动手学深度学习 - 图6动手学深度学习 - 图7 是数据的均值和方差。计算时,卷积操作,按每个 channel 进行计算;全连接操作,按特征维度计算。训练时均值和方差计算得到,推理时,采用训练训练过程中积累的均值和方差。

模型训练 tricks