MainSubjects - 线性回归 - 《Machine Learning》

问题定义：
一元线性回归
多元线性回归
岭回归
References:

回归

问题定义：

数据：

输入： $线性回归 - 图1$ , (例如尺寸，协变量，特征，自变量)
输出： $线性回归 - 图2$ , (例如响应，因变量)

目标：

找到一个函数 $线性回归 - 图3$ 作用于 $线性回归 - 图4$ ，使得针对数据对 $线性回归 - 图5$ #card=math&code=%28x%2C%20y%29)有 $线性回归 - 图6$ #card=math&code=y%20%5Capprox%20f%28x%3Bw%29)，这里的 $线性回归 - 图7$ #card=math&code=f%28x%3Bw%29)叫做回归函数，它的自由变量是 $线性回归 - 图8$

定义：

如果预测 $线性回归 - 图9$ 是针对未知参数 $线性回归 - 图10$ 的线性函数，则称它为回归方法。

一元线性回归

一个因变量由一个自变量来决定，即一元线性回归，用方程可以表示为：

$线性回归 - 图11$

当给定参数 $线性回归 - 图12$ 和![](https://g.yuque.com/gr/latex?w_1*#card=math&code=%2Aw_1%2A)时， $线性回归 - 图13$ 落在二维坐标系中的所有点在一条直线上。

误差

考虑到在实际问题中，我们拿到的 $线性回归 - 图14$ 并不是完全在一条直线上，而是成散点状落在二维坐标系中，那么回归的作用则是尽可能在杂乱的中寻找规律，通过数学模型来尽可能拟合真实数据。因此在统计学中，会将理论与实际之间的差距表示出来，即“误差”，那么上面的方程在统计学中可以表示为：

$线性回归 - 图15$

$线性回归 - 图16$ 表示误差

残差

因为我们需要通过样本数据去预测整体数据，那么对于需要进行预测的数据，我们会有相应的预测值，用 $线性回归 - 图17$ 表示，残差就是实际值与我们的预测值之间的差距，用方程可表示为：

$线性回归 - 图18$

损失函数

当数据在二维坐标系中呈散点分布时，由于我们需要通过直线来进行拟合，那么我们可以得到很多条直线，但究竟哪一条直线能够最接近我们最需要的，即最“合适”的。

线性回归 - 图19

对于 $线性回归 - 图20$ ，有实际值 $线性回归 - 图21$ ，同时也有 $线性回归 - 图22$ , ( $线性回归 - 图23$ 由 $线性回归 - 图24$ 代入 $线性回归 - 图25$ 得到)，计算 $线性回归 - 图26$ ，为了计算方便，需要消除负数， $线性回归 - 图27$ 进行平方，然后将所有残差平方和相加，就能量化出拟合的直线与实际之间的误差，叫做残差平方和(sum of squares for error)，是机器学习中回归问题最常用的损失函数，公式为：

$线性回归 - 图28$ %5E2%20%3D%20%5Csum%5En%7B1%7D(y_i%20-%20(%5Chat%7Bw%7D_0%20%2B%20%5Chat%7Bw%7D_1x_i))%5E2%0A#card=math&code=Q%20%3D%20%5Csum%5En%7B1%7D%28yi%20-%20%5Chat%7By%7D_i%29%5E2%20%3D%20%5Csum%5En%7B1%7D%28y_i%20-%20%28%5Chat%7Bw%7D_0%20%2B%20%5Chat%7Bw%7D_1x_i%29%29%5E2%0A)

最小二乘法

对于残差平方和公式中，对于观测样本 $线性回归 - 图29$ 和 $线性回归 - 图30$ 是已知，那么我们需要求 $线性回归 - 图31$ 和 $线性回归 - 图32$ ，同时要满足回归函数尽量拟合这组值，因此我们使用最小二乘法来进行判断，判断标准是残差平方和的值达到最小。

根据残差平方和公式的定义，我们可以发现 $线性回归 - 图33$ 是一个凸函数，因此根据微积分中的知识，当导数为0时， $线性回归 - 图34$ 取值最小，因此对 $线性回归 - 图35$ 和 $线性回归 - 图36$ 求偏导

$线性回归 - 图37$ %20%3D%200%20%5C%5C%20%5Cfrac%7B%5Cvartheta%20Q%7D%7B%5Cvartheta%20w_1%7D%20%3D%202%5Csum%5En_1(y_i%20-%20%5Chat%7Bw%7D_0%20-%20%5Chat%7Bw%7D_1x_i)x_i%20%3D%200%0A#card=math&code=%5Cfrac%7B%5Cvartheta%20Q%7D%7B%5Cvartheta%20w_0%7D%20%3D%202%5Csum%5En_1%28y_i%20-%20%5Chat%7Bw%7D_0%20-%20%5Chat%7Bw%7D_1x_i%29%20%3D%200%20%5C%5C%20%5Cfrac%7B%5Cvartheta%20Q%7D%7B%5Cvartheta%20w_1%7D%20%3D%202%5Csum%5En_1%28y_i%20-%20%5Chat%7Bw%7D_0%20-%20%5Chat%7Bw%7D_1x_i%29x_i%20%3D%200%0A)

将 $线性回归 - 图38$ 代入后可得到 $线性回归 - 图39$ 的值

多元线性回归

一个因变量由多个自变量决定，即为多元线性回归。
因为与一元回归有相同的定义，因此理论方程变为：
线性回归 - 图40
根据一元回归的定义，在实际数据中，需要加上误差项，因此实际方程为：
线性回归 - 图41
由于多元回归中，观测值不再是一个标量，而是一个向量，因此自变量的观测值为线性回归 - 图42 ，可以将上述方程记为：
线性回归 - 图43
损失函数定义：
线性回归 - 图44
由于我不是数学系的，目前也在尽量补充相应的基础，因此这里详细的推导过程就不做解释，感兴趣的可以看references中关于多元回归的内容，这里直接说结论，得到标准线性回归系数方程为：
线性回归 - 图45

岭回归

由于标准线性回归系数方程有唯一解的条件是X列满秩，即：线性回归 - 图46 (原理可参考线性方程组的三种视角中第四点描述)，但考虑到数据特征中共线性的情况下，会导致最小二乘求解不稳定(原理可见好好谈谈共线性问题)，因此会在损失函数上添加一个惩罚项，也可以说加上了一个正则项。通常正则项采用一、二范数，Lasso回归一般采用一范数，而岭回归则对应使用二范数，也可称作L2正则化。
此时损失函数可看做：
线性回归 - 图47
加入此正则项的目的在于限制回归系数线性回归 - 图48 的绝对值，可以等价于：
线性回归 - 图49
可以得到：
线性回归 - 图50

References:

MultipleRegressionBasicsCollection.pdf