最小二乘法(least square estimation, LSE)
基本概念
我们定义损失函数(loss function):
展开得到:
[补充] 矩阵求导法则:
将损失函数最优化:
其中,被称为矩阵X的伪逆。如果满秩,上式可以直接求解,如果非满秩,甚至不为方形,则需对其进行奇异值分解(singular value decomposition, SVD):
,从而
。
几何意义
从表达式上可以看出损失函数是模型值与试验值距离的平方和,而模型值则是p个随机变量的线性组合。
现将模型改写为,模型值是N个随机事件的线性组合,即
,Y独立于
,若需要降低Y与f之间的距离越小越好,那么它们的差应当垂直于这个线性空间(参考下图),从而:
,可见两种模型形式上是相同的。

[补充] Y独立于
的原因:假设Y与
线性相关,则
,也就是说可以在这个线性空间内找到一个模型值
,完美拟合,可惜现实里的数据都是有噪声的,这种完美的情形只能存在于理想之中了 :-(
噪声为高斯分布的MLE
只讨论一维情形,即,记
,那么
,代入极大似然估计:
,与最小二乘法结果一致。
即最小二乘法相当于隐含噪音服从高斯分布假设的极大似然估计:
正则化
正则化框架
若无法满足
,则很有可能造成
不可逆,形式上体现为过拟合。一般有三种解决方法:
- 增加数据;
- 特征选择(降维);
- 正则化:
,第二项被称为惩罚(penalty)项
常见的两种正则化方法:
- L1. Lasso正则化:
,惩罚项利用了ω的1范数。
- L2. Ridge正则化(岭回归):
,惩罚项利用了ω的2范数。
由于半正定的,因此
是正定的,可以保证求逆的可行性,避免过拟合。
从贝叶斯角度看待岭回归
只讨论一维情形,即,给ω一个先验分布
,于是该参数的最大后验估计为:
假设噪声服从高斯分布,,根据上一节的分析
,因此
,可以分为LSE项和正则项,也就是说正则化的最小二乘法相当于隐含噪声和后验模型服从高斯分布假设的最大后验估计:
线性回归的特点与发展
线性回归的特点主要体现在以下三个方面:
- 线性,具体又可分为:
- 属性线性:即数据保持其本意,如果打破该属性,例如选取原数据的幂后再进行线性回归即可得到多项式拟合,类似的操作为对数据的特征提取;
- 全局线性:即激活函数是线性的,而在Logistic回归中就会接触非线性激活函数;
- 系统线性:与之对比的是神经网络则是系统非线性的分析方法。
- 全局性,即回归处理针对的是全域的数据,若对各个子域分段分析即为线性样条回归。
- 数据未加工,对于高纬度的数据往往要通过类如主成分分析的方法进行降维。
