假设数据集线性回归 - 图1 ，记
线性回归 - 图2 ，线性回归的假设线性回归 - 图3 是，需要找到最合适的线性回归 - 图4 。

最小二乘法（least square estimation, LSE）

基本概念

我们定义损失函数（loss function）:
线性回归 - 图5
展开得到：
线性回归 - 图6
线性回归 - 图7
线性回归 - 图8
线性回归 - 图9

[补充] 矩阵求导法则：

将损失函数最优化：
线性回归 - 图11
其中，线性回归 - 图12 被称为矩阵X的伪逆。如果满秩，上式可以直接求解，如果非满秩，甚至不为方形，则需对其进行奇异值分解（singular value decomposition, SVD）：线性回归 - 图13 ，从而线性回归 - 图14 。

几何意义

从表达式上可以看出损失函数是模型值与试验值距离的平方和，而模型值则是p个随机变量的线性组合。
现将模型改写为线性回归 - 图15 ，模型值是N个随机事件的线性组合，即线性回归 - 图16 ，Y独立于线性回归 - 图17 ，若需要降低Y与f之间的距离越小越好，那么它们的差应当垂直于这个线性空间（参考下图），从而：
线性回归 - 图18 ，可见两种模型形式上是相同的。

[补充] Y独立于的原因：假设Y与线性相关，则，也就是说可以在这个线性空间内找到一个模型值，完美拟合，可惜现实里的数据都是有噪声的，这种完美的情形只能存在于理想之中了 :-(

噪声为高斯分布的MLE

只讨论一维情形，即线性回归 - 图24 ，记线性回归 - 图25 ，那么线性回归 - 图26 ，代入极大似然估计：
线性回归 - 图27
线性回归 - 图28 ，与最小二乘法结果一致。
即最小二乘法相当于隐含噪音服从高斯分布假设的极大似然估计：
线性回归 - 图29

正则化

正则化框架

线性回归 - 图30 若无法满足线性回归 - 图31 ，则很有可能造成线性回归 - 图32 不可逆，形式上体现为过拟合。一般有三种解决方法：

增加数据；
特征选择（降维）；
正则化：，第二项被称为惩罚（penalty）项

常见的两种正则化方法：

L1. Lasso正则化：，惩罚项利用了ω的1范数。
L2. Ridge正则化（岭回归）：，惩罚项利用了ω的2范数。

线性回归 - 图36
线性回归 - 图37
由于线性回归 - 图38 半正定的，因此线性回归 - 图39 是正定的，可以保证求逆的可行性，避免过拟合。

从贝叶斯角度看待岭回归

只讨论一维情形，即线性回归 - 图40 ，给ω一个先验分布
线性回归 - 图41 ，于是该参数的最大后验估计为：
线性回归 - 图42
假设噪声服从高斯分布，线性回归 - 图43 ，根据上一节的分析
线性回归 - 图44 ，因此
线性回归 - 图45
线性回归 - 图46
线性回归 - 图47 ，可以分为LSE项和正则项，也就是说正则化的最小二乘法相当于隐含噪声和后验模型服从高斯分布假设的最大后验估计：
线性回归 - 图48

线性回归的特点与发展

线性回归的特点主要体现在以下三个方面：

线性，具体又可分为：
1. 属性线性：即数据保持其本意，如果打破该属性，例如选取原数据的幂后再进行线性回归即可得到多项式拟合，类似的操作为对数据的特征提取；
2. 全局线性：即激活函数是线性的，而在Logistic回归中就会接触非线性激活函数；
3. 系统线性：与之对比的是神经网络则是系统非线性的分析方法。
全局性，即回归处理针对的是全域的数据，若对各个子域分段分析即为线性样条回归。
数据未加工，对于高纬度的数据往往要通过类如主成分分析的方法进行降维。