问题定义:
数据:
- 输入:
, (例如尺寸,协变量,特征,自变量)
- 输出:
, (例如响应,因变量)
目标:
找到一个函数作用于
,使得针对数据对
#card=math&code=%28x%2C%20y%29)有
#card=math&code=y%20%5Capprox%20f%28x%3Bw%29),这里的
#card=math&code=f%28x%3Bw%29)叫做回归函数,它的自由变量是
定义:
如果预测是针对未知参数
的线性函数,则称它为回归方法。
一元线性回归
一个因变量由一个自变量来决定,即一元线性回归,用方程可以表示为:
当给定参数和时,
落在二维坐标系中的所有点在一条直线上。
误差
考虑到在实际问题中,我们拿到的并不是完全在一条直线上,而是成散点状落在二维坐标系中,那么回归的作用则是尽可能在杂乱的中寻找规律,通过数学模型来尽可能拟合真实数据。因此在统计学中,会将理论与实际之间的差距表示出来,即“误差”,那么上面的方程在统计学中可以表示为:
表示误差
残差
因为我们需要通过样本数据去预测整体数据,那么对于需要进行预测的数据,我们会有相应的预测值,用表示,残差就是实际值与我们的预测值之间的差距,用方程可表示为:
损失函数
当数据在二维坐标系中呈散点分布时,由于我们需要通过直线来进行拟合,那么我们可以得到很多条直线,但究竟哪一条直线能够最接近我们最需要的,即最“合适”的。
对于,有实际值
,同时也有
, (
由
代入
得到),计算
,为了计算方便,需要消除负数,
进行平方,然后将所有残差平方和相加,就能量化出拟合的直线与实际之间的误差,叫做残差平方和(sum of squares for error),是机器学习中回归问题最常用的损失函数,公式为:
%5E2%20%3D%20%5Csum%5En%7B1%7D(y_i%20-%20(%5Chat%7Bw%7D_0%20%2B%20%5Chat%7Bw%7D_1x_i))%5E2%0A#card=math&code=Q%20%3D%20%5Csum%5En%7B1%7D%28yi%20-%20%5Chat%7By%7D_i%29%5E2%20%3D%20%5Csum%5En%7B1%7D%28y_i%20-%20%28%5Chat%7Bw%7D_0%20%2B%20%5Chat%7Bw%7D_1x_i%29%29%5E2%0A)
最小二乘法
对于残差平方和公式中,对于观测样本和
是已知,那么我们需要求
和
,同时要满足回归函数尽量拟合这组值,因此我们使用最小二乘法来进行判断,判断标准是残差平方和的值达到最小。
根据残差平方和公式的定义,我们可以发现是一个凸函数,因此根据微积分中的知识,当导数为0时,
取值最小,因此对
和
求偏导
%20%3D%200%20%5C%5C%20%5Cfrac%7B%5Cvartheta%20Q%7D%7B%5Cvartheta%20w_1%7D%20%3D%202%5Csum%5En_1(y_i%20-%20%5Chat%7Bw%7D_0%20-%20%5Chat%7Bw%7D_1x_i)x_i%20%3D%200%0A#card=math&code=%5Cfrac%7B%5Cvartheta%20Q%7D%7B%5Cvartheta%20w_0%7D%20%3D%202%5Csum%5En_1%28y_i%20-%20%5Chat%7Bw%7D_0%20-%20%5Chat%7Bw%7D_1x_i%29%20%3D%200%20%5C%5C%20%5Cfrac%7B%5Cvartheta%20Q%7D%7B%5Cvartheta%20w_1%7D%20%3D%202%5Csum%5En_1%28y_i%20-%20%5Chat%7Bw%7D_0%20-%20%5Chat%7Bw%7D_1x_i%29x_i%20%3D%200%0A)
将代入后可得到
的值
多元线性回归
一个因变量由多个自变量决定,即为多元线性回归。
因为与一元回归有相同的定义,因此理论方程变为:
根据一元回归的定义,在实际数据中,需要加上误差项,因此实际方程为:
由于多元回归中,观测值不再是一个标量,而是一个向量,因此自变量的观测值为,可以将上述方程记为:
损失函数定义:
由于我不是数学系的,目前也在尽量补充相应的基础,因此这里详细的推导过程就不做解释,感兴趣的可以看references中关于多元回归的内容,这里直接说结论,得到标准线性回归系数方程为:
岭回归
由于标准线性回归系数方程有唯一解的条件是X列满秩,即:(原理可参考线性方程组的三种视角中第四点描述),但考虑到数据特征中共线性的情况下,会导致最小二乘求解不稳定(原理可见好好谈谈共线性问题),因此会在损失函数上添加一个惩罚项,也可以说加上了一个正则项。通常正则项采用一、二范数,Lasso回归一般采用一范数,而岭回归则对应使用二范数,也可称作L2正则化。
此时损失函数可看做:
加入此正则项的目的在于限制回归系数的绝对值,可以等价于:
可以得到: