回归

问题定义:

数据:

  • 输入:线性回归 - 图1, (例如尺寸,协变量,特征,自变量)
  • 输出:线性回归 - 图2, (例如响应,因变量)

目标:

找到一个函数线性回归 - 图3作用于线性回归 - 图4,使得针对数据对线性回归 - 图5#card=math&code=%28x%2C%20y%29)有线性回归 - 图6#card=math&code=y%20%5Capprox%20f%28x%3Bw%29),这里的线性回归 - 图7#card=math&code=f%28x%3Bw%29)叫做回归函数,它的自由变量是线性回归 - 图8

定义:

如果预测线性回归 - 图9是针对未知参数线性回归 - 图10的线性函数,则称它为回归方法。

一元线性回归

一个因变量由一个自变量来决定,即一元线性回归,用方程可以表示为:

线性回归 - 图11

当给定参线性回归 - 图12和![](https://g.yuque.com/gr/latex?w_1*#card=math&code=%2Aw_1%2A)时,线性回归 - 图13落在二维坐标系中的所有点在一条直线上。

误差

考虑到在实际问题中,我们拿到的线性回归 - 图14并不是完全在一条直线上,而是成散点状落在二维坐标系中,那么回归的作用则是尽可能在杂乱的中寻找规律,通过数学模型来尽可能拟合真实数据。因此在统计学中,会将理论与实际之间的差距表示出来,即“误差”,那么上面的方程在统计学中可以表示为:

线性回归 - 图15

线性回归 - 图16表示误差

残差

因为我们需要通过样本数据去预测整体数据,那么对于需要进行预测的数据,我们会有相应的预测值,用线性回归 - 图17表示,残差就是实际值与我们的预测值之间的差距,用方程可表示为:

线性回归 - 图18

损失函数

当数据在二维坐标系中呈散点分布时,由于我们需要通过直线来进行拟合,那么我们可以得到很多条直线,但究竟哪一条直线能够最接近我们最需要的,即最“合适”的。

线性回归 - 图19

对于线性回归 - 图20,有实际线性回归 - 图21同时也有线性回归 - 图22, (线性回归 - 图23线性回归 - 图24代入线性回归 - 图25得到),计算线性回归 - 图26,为了计算方便,需要消除负数,线性回归 - 图27进行平方,然后将所有残差平方和相加,就能量化出拟合的直线与实际之间的误差,叫做残差平方和(sum of squares for error),是机器学习中回归问题最常用的损失函数,公式为:

线性回归 - 图28%5E2%20%3D%20%5Csum%5En%7B1%7D(y_i%20-%20(%5Chat%7Bw%7D_0%20%2B%20%5Chat%7Bw%7D_1x_i))%5E2%0A#card=math&code=Q%20%3D%20%5Csum%5En%7B1%7D%28yi%20-%20%5Chat%7By%7D_i%29%5E2%20%3D%20%5Csum%5En%7B1%7D%28y_i%20-%20%28%5Chat%7Bw%7D_0%20%2B%20%5Chat%7Bw%7D_1x_i%29%29%5E2%0A)

最小二乘法

对于残差平方和公式中,对于观测样本线性回归 - 图29线性回归 - 图30是已知,那么我们需要求线性回归 - 图31线性回归 - 图32,同时要满足回归函数尽量拟合这组值,因此我们使用最小二乘法来进行判断,判断标准是残差平方和的值达到最小。

根据残差平方和公式的定义,我们可以发现线性回归 - 图33是一个凸函数,因此根据微积分中的知识,当导数为0时,线性回归 - 图34取值最小,因此对线性回归 - 图35线性回归 - 图36求偏导

线性回归 - 图37%20%3D%200%20%5C%5C%20%5Cfrac%7B%5Cvartheta%20Q%7D%7B%5Cvartheta%20w_1%7D%20%3D%202%5Csum%5En_1(y_i%20-%20%5Chat%7Bw%7D_0%20-%20%5Chat%7Bw%7D_1x_i)x_i%20%3D%200%0A#card=math&code=%5Cfrac%7B%5Cvartheta%20Q%7D%7B%5Cvartheta%20w_0%7D%20%3D%202%5Csum%5En_1%28y_i%20-%20%5Chat%7Bw%7D_0%20-%20%5Chat%7Bw%7D_1x_i%29%20%3D%200%20%5C%5C%20%5Cfrac%7B%5Cvartheta%20Q%7D%7B%5Cvartheta%20w_1%7D%20%3D%202%5Csum%5En_1%28y_i%20-%20%5Chat%7Bw%7D_0%20-%20%5Chat%7Bw%7D_1x_i%29x_i%20%3D%200%0A)

线性回归 - 图38代入后可得到线性回归 - 图39的值

多元线性回归

一个因变量由多个自变量决定,即为多元线性回归。
因为与一元回归有相同的定义,因此理论方程变为:
线性回归 - 图40
根据一元回归的定义,在实际数据中,需要加上误差项,因此实际方程为:
线性回归 - 图41
由于多元回归中,观测值不再是一个标量,而是一个向量,因此自变量的观测值为线性回归 - 图42,可以将上述方程记为:
线性回归 - 图43
损失函数定义:
线性回归 - 图44
由于我不是数学系的,目前也在尽量补充相应的基础,因此这里详细的推导过程就不做解释,感兴趣的可以看references中关于多元回归的内容,这里直接说结论,得到标准线性回归系数方程为:
线性回归 - 图45

岭回归

由于标准线性回归系数方程有唯一解的条件是X列满秩,即:线性回归 - 图46(原理可参考线性方程组的三种视角中第四点描述),但考虑到数据特征中共线性的情况下,会导致最小二乘求解不稳定(原理可见好好谈谈共线性问题),因此会在损失函数上添加一个惩罚项,也可以说加上了一个正则项。通常正则项采用一、二范数,Lasso回归一般采用一范数,而岭回归则对应使用二范数,也可称作L2正则化。
此时损失函数可看做:
线性回归 - 图47
加入此正则项的目的在于限制回归系数线性回归 - 图48的绝对值,可以等价于:
线性回归 - 图49
可以得到:
线性回归 - 图50

References:

MultipleRegressionBasicsCollection.pdf