1. 基本形式

给定数据集:
线性回归 - 图1
我们用 线性回归 - 图2来对数据进行拟合,首先需假设线性回归的噪声服从均值为0的高斯分布:
线性回归 - 图3
则因变量 线性回归 - 图4y 也服从高斯分布:
线性回归 - 图5
因为可通过分别在列向量 线性回归 - 图6线性回归 - 图7的末尾添加常数 线性回归 - 图8线性回归 - 图9,所以这里我们简记为 :
线性回归 - 图10
其中:
线性回归 - 图11
线性回归 - 图12
再令:
线性回归 - 图13
线性回归 - 图14

2. 最小二乘法求解

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”,此时损失函数:
线性回归 - 图15
展开得:
线性回归 - 图16
令:
线性回归 - 图17
可得
线性回归 - 图18
线性回归 - 图19
所以线性回归模型为
线性回归 - 图20

3. 正则化

在实际应用时,如果样本容量不远大于样本的特征纬度,很可能造成过拟合,解决过拟合主要有以下三种方式:

  • 增加数据
  • 特征选择(降维)
  • 正则化(regularization)

正则化是在损失函数中加入惩罚项,控制参数的幅度,提高模型的稳定性,减轻模型的过拟合。正则化分为L1正则化和L2正则化。

1)L1正则化

又名Lasso,此时损失函数为
线性回归 - 图21
求解损失函数的过程可以画出等值线,同时L1正则化的函数也可以在二维平面画出来
线性回归 - 图22
图中的椭圆等高线越接近其中心(越小),模型就越好的拟合现有的数据集,加入正则化项后的解必须是菱形与椭圆的交点,因此新的损失函数的解要在平方误差项与正则化项之间折中,所以椭圆又必须向着坐标轴的原点适当增大,对现有数据集的拟合程度降低,同时也减轻了过拟合。

2)L2正则化

又名Ridge岭回归,此时损失函数为
线性回归 - 图23
同样的得到图
线性回归 - 图24
同样的,加入正则化项后的解必须是菱形与椭圆的交点,因此新的损失函数的解要在平方误差项与正则化项之间折中,所以椭圆又必须向着坐标轴的原点适当增大,对现有数据集的拟合程度降低,同时也减轻了过拟合。

3)Lasso与Ridge的选择

  • Lasso的优良性质是能产生稀疏性,采用Lasso正则化时,平方误差项与正则项的解常在坐标轴上,导致 线性回归 - 图25中许多项变成0,从而增强了模型的繁华能力。适用于数据的维度较高时的情况。
  • Ridge主要使模型的解偏向范数较小的 线性回归 - 图26 ,通过限制范数的大小实现对模型空间的限制,从而实现减轻过拟合的目的。但是Ridge不具有产生稀疏解的能力(虽然系数变小,但仍不为0),从计算量来说并没有得到改观。适用于数据的维度不高、不需要考虑计算量时的情况。