假设回归问题中,过拟合的模型如下:
    代价函数 - 图1
    我们可以看出,正是那些高次项导致了过拟合的产生,所以降低高次项的系数代价函数 - 图2,我们就能降低过拟合程度。但是,我们不能直接修改模型中的参数大小,而通过修改代价函数中参数大小来实现“曲线救国”
    正常回归问题的损失函数如下:
    代价函数 - 图3
    对损失函数做梯度下降算法,如下:
    代价函数 - 图4
    可见,每次迭代中,为了使迭代后的参数代价函数 - 图5变更小,我们需要使代价函数 - 图6尽可能大,而学习率固定,所以我们只能想办法让导数项尽可能大。所以我们可以对损失/代价函数代价函数 - 图7做一波修改:
    14.png
    可见,我们给参数代价函数 - 图9代价函数 - 图10加上了系数,这可以称为【惩罚】,对修改后的代价函数,做梯度下降算法
    代价函数 - 图11的更新如下:
    代价函数 - 图12
    代价函数 - 图13的更新如下:
    代价函数 - 图14
    可见,对于参数代价函数 - 图15代价函数 - 图16,因为有系数的存在,每次求导都会让其降低的更多更快,而且,不会影响其他参数项的下降,从而达到比较理想的效果。


    假如我们有非常多的特征,我们并不知道其中哪些特征我们要惩罚,我们将对所有的特征进行惩罚,并且让代价函数最优化的软件来选择这些惩罚的程度。这样的结果是得到了一个较为简单的能防止过拟合问题的假设:

    1.一般表示
    如果我们有代价函数 - 图17 总计n个参数(通常代价函数 - 图18不用惩罚),通常会对所有的参数进行惩罚,并设置系数代价函数 - 图19,这样的结果是得到了一个较为简单的能防止过拟合问题的假设函数:
    15.png
    其中代价函数 - 图21被称为正则化参数Regularization Parameter
    经过正则化处理后的模型与原模型对比图如下:
    16.png
    蓝色是处理前,过拟合的模型数据表现,粉红色的是经过正则化处理后的表现。

    如果正则化系数代价函数 - 图23过小,将会导致效果不好,模型的拟合度依旧很高;
    如果正则化系数代价函数 - 图24过大,则会将除了代价函数 - 图25以外的所有系数都惩罚殆尽,导致假设函数近似:代价函数 - 图26 即变成图中的红线。