参考

  1. 为什么L1和L2正则化可防止过拟合
  2. L1正则化与L2正则化

知识点

为什么L1正则化具有稀疏性?

  • 定量解释:一维情况下 L1正则化和L2正则化 - 图1 ,其中 L1正则化和L2正则化 - 图2 是目标函数, L1正则化和L2正则化 - 图3是原始目标函数, L1正则化和L2正则化 - 图4 是L1正则项。要使0点成为可能的最值点,虽然在0点不可导,但是我们只需要让0点左右的导数异号,即 L1正则化和L2正则化 - 图5 即可。也就是 L1正则化和L2正则化 - 图6 的情况下,0点都是可能的最值点。
  • 概率解释:L1正则化等价于参数服从拉普拉斯分布,该分布在0点的概率很大。
  • 几何解释:如下图所示,这里只考虑负梯度方向在w2上的投影为正的情况,负的情况分析方法是相同的。w点靠着负梯度的力量,沿着边界斜线运动时,能时损失函数减小,运动到顶点w时,不能再继续运动了,因此w就是最小值点。可见在L1正则项约束下,w2=0或w1=0很容易成为最小值点,因此说L1正则化具有稀疏性。

L1正则化和L2正则化 - 图7

为什么L2正则化可以减小参数值?

  • 概率解释:L2正则化等价于参数服从高斯分布,数值集中在[-σ,σ]之间。
  • 几何解释:如下图所示,P1点靠着负梯度的力量,沿着正则项边界滑动,能使损失函数不断减小,并在负梯度垂直于正则项边界的P2点,达到最小值。P2点相比于等高点上的其它点,参数值的平方和更小,因此说L2正则化能减小参数值。

L1正则化和L2正则化 - 图8

为什么正则化可以降低过拟合?