五、正则化 - 代价函数 - 《机器学习》

假设回归问题中，过拟合的模型如下：
代价函数 - 图1
我们可以看出，正是那些高次项导致了过拟合的产生，所以降低高次项的系数 代价函数 - 图2 ，我们就能降低过拟合程度。但是，我们不能直接修改模型中的参数大小，而通过修改代价函数中参数大小来实现“曲线救国”
正常回归问题的损失函数如下：
代价函数 - 图3
对损失函数做梯度下降算法，如下：
代价函数 - 图4
可见，每次迭代中，为了使迭代后的参数代价函数 - 图5 变更小，我们需要使代价函数 - 图6 尽可能大，而学习率固定，所以我们只能想办法让导数项尽可能大。所以我们可以对损失/代价函数代价函数 - 图7 做一波修改：

可见，我们给参数代价函数 - 图9 和代价函数 - 图10 加上了系数，这可以称为【惩罚】，对修改后的代价函数，做梯度下降算法
对代价函数 - 图11 的更新如下：
代价函数 - 图12
对代价函数 - 图13 的更新如下：
代价函数 - 图14
可见，对于参数代价函数 - 图15 和代价函数 - 图16 ，因为有系数的存在，每次求导都会让其降低的更多更快，而且，不会影响其他参数项的下降，从而达到比较理想的效果。

假如我们有非常多的特征，我们并不知道其中哪些特征我们要惩罚，我们将对所有的特征进行惩罚，并且让代价函数最优化的软件来选择这些惩罚的程度。这样的结果是得到了一个较为简单的能防止过拟合问题的假设：

1.一般表示
如果我们有代价函数 - 图17 总计n个参数(通常代价函数 - 图18 不用惩罚)，通常会对所有的参数进行惩罚，并设置系数代价函数 - 图19 ，这样的结果是得到了一个较为简单的能防止过拟合问题的假设函数：

其中代价函数 - 图21 被称为正则化参数Regularization Parameter
经过正则化处理后的模型与原模型对比图如下：

蓝色是处理前，过拟合的模型数据表现，粉红色的是经过正则化处理后的表现。

如果正则化系数代价函数 - 图23 过小，将会导致效果不好，模型的拟合度依旧很高；
如果正则化系数代价函数 - 图24 过大，则会将除了代价函数 - 图25 以外的所有系数都惩罚殆尽，导致假设函数近似：代价函数 - 图26 即变成图中的红线。