训练技巧，理论 - 李宏毅ML Lecture 9-1 Tips for Training DNN - 《Deep Learning》

李宏毅ML Lecture 9-1 Tips for Training DNN - 图1

1.训练集效果差

前几层还是ramdon参数的时候后面几层就收敛了，在训练集上效果就会很差

解决方案：激活函数不使用sigmoid，使用ReLU、Maxout等

优化到局部最小值

动量、Adam

用验证集确认没有过拟合，如果过拟合了就停下来

在优化函数里加上对参数的其他限制，比如限制参数的l2 norm

实际上是在做Weight Decay，每次更新权重时都让权重的绝对值变小一点（与人脑类似）

l2 regularization和l1 regularization的区别：

laplace分布的概率密度函数：

李宏毅ML Lecture 9-1 Tips for Training DNN - 图2

l1 regularzation减小的值与w本身的大小无关，即使w很大或者很小，减小的速度也是固定的。

李宏毅ML Lecture 9-1 Tips for Training DNN - 图3

李宏毅ML Lecture 9-1 Tips for Training DNN - 图4

如果网络是线性的，w乘以(1-p)后得到结果的期望与ensemble的期望是一样的，所以dropout在激活函数是relu时效果更好