正则项

正则项

l1正则与l2正则的特点是什么，各有什么优势？ - Andy Yang的回答 - 知乎 https://www.zhihu.com/question/26485586/answer/616029832

https://www.cnblogs.com/ying-chease/p/10573356.html

[视频讲解]史上最全面的正则化技术总结与分析—part1 - 深度眸的文章 - 知乎 https://zhuanlan.zhihu.com/p/35429054

加正则项的意义

加正则项，相当于加一个“惩罚项”，不含正则项的损失函数称之为经验风险函数，加了正则化的损失函数被称之为结构风险函数。

为什么加正则项可以防止过拟合

过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。

函数的Wi参数越小效果越好；

L1和L2正则化有什么区别

从几何解释：

正则项 - 图1

图1 上面中的蓝色轮廓线是没有正则化损失函数的等高线，中心的蓝色点为最优解，左图、右图分别为L2、L1正则化给出的限制。

可以看到在正则化的限制之下，L2正则化给出的最优解 w∗w∗是使解更加靠近原点，也就是说L2正则化能降低参数范数的总和，使得模型的解偏向于 norm 较小的 W，通过限制 W 的 norm 的大小实现了对模型空间的限制，从而在一定程度上避免了 overfitting 。不过 L2正则化并不具有产生稀疏解的能力，得到的系数仍然需要数据中的所有特征才能计算预测结果，从计算量上来说并没有得到改观。

L1正则化给出的最优解w∗w∗是使解更加靠近某些轴，而其它的轴则为0，所以L1正则化能使得到的参数稀疏化。稀疏的解除了计算量上的好处之外，更重要的是更具有“可解释性”。比如说，一个病如果依赖于 5 个变量的话，将会更易于医生理解、描述和总结规律，但是如果依赖于 5000 个变量的话，基本上就超出人肉可处理的范围了。

因此正则化是通过约束参数的范数使其不要太大，使其在一定程度上减少过拟合情况。