参考: 总结-深度学习中的正则化方法

L1和L2正则化

原理

使复杂模型简单化。而通常来说,模型中参数数值越小,模型就越趋于简单。所以在损失函数中将模型参数大小考虑其中,希望通过损失函数来限制模型参数,从而简化模型。

L1正则化

正则化 - 图1
其中:正则化 - 图2是一个超参数,通过人为设定。(应该也能通过验证集验证进行自动调整)
这使得模型训练之后,参数最终可能是0;

L2正则化

正则化 - 图3
模型最终参数可能趋近0,但是很难达到0;

Dropout

原理

通过使得某些参数失效(也即是设置为0),从而简化网络。

特点

  • dropout只在训练的时候生效,测试阶段不再生效。
  • 每次训练过程中,失效的参数是随机的,所以每次训练时就相当于训练不同的模型;最终结果相当于综合多个网络(通常来说综合网络优于单一网络)。

    数据增强

    常见方法:

    旋转,翻转,裁剪,平移,高斯模糊等。(有待继续深入了解)