学习记录
经典深度学习模型
LeNet -> AlexNet -> VGG -> NiN -> GoogLeNet -> ResNet
- AlexNet 和 LeNet 结构类似,模型改进地方在于:层数更深,channels 更多
- VGG 相对于 AlexNet 来说,采用了 VGG 块,使得模型更加规则
- NiN 主要提出了 1x1 卷积
- GoogLeNet 采用了并行结构,并大量利用 1x1 卷积进行通道调整
- ResNet 引入残差结构,使得模型能够做得更深
所有模型在前面几层是基本类似得,采用大的卷积核,核最大值池化缩小图片尺寸
Fine tune
微调,通常是用于数据集之间比较相似得情况,数据集差异较大,采用微调效果可能不一定好。
正则化方法
Dropout
dropout 一开始提出来时,作者认为这是模型集成。但是,后续研究认为更像是一种正则化方法
weight decay
求导过程中会产生 的形式,所以在 SGD 更新时,如果不考虑 loss 梯度,那么权值就一直在往原点靠近(衰减)
BN
BN 表达式:
其中 和 是可学习参数, 和 是数据的均值和方差。计算时,卷积操作,按每个 channel 进行计算;全连接操作,按特征维度计算。训练时均值和方差计算得到,推理时,采用训练训练过程中积累的均值和方差。