过拟合

1. 正则化。L1正则化使权重稀疏化,L2使权重接近0,直观上的解释是L1对w的导数为+1、-1,恒定,这样会使得w稳定在0的位置,而L2对w的导数为-2w,这样在w趋近0时,导数也趋近0,进入0比较慢,所以说l2会使w接近0

2. dropout。需要注意的是dropout的放缩问题,当使用dropout时,会对被选中的input做放缩,目的是为了使改成input的均值不变,尽量不改变input层的分布,p为dropout丢弃概率
过拟合、欠拟合 - 图1
也可以训练时不放缩,在测试的时候在放缩
过拟合、欠拟合 - 图2
一般运用在dense层中,较少在稀疏层中使用,例如Relu、卷积等稀疏性较大的层之后。

3. early stop

对于

ref

  1. https://developer.aliyun.com/article/656907