线性回归:确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

一元线性回归

image.png
一元线性回归

多元线性回归

一个关于薪资的数据集,共计52条记录,5列(性别,年龄,工龄,教育程度,年薪),我们根据年龄,司龄,教育程度来预测年薪。性别为分类变量,我们不引入回归方程,有兴趣的话可以使用ANOVA看一下男女在薪资上是否不同。

image.pngimage.png

可以看到年龄与年薪呈明显的正相关,且有明显的线性关系,同样做工龄年薪,教育程度年薪的散点图,可以得到同样的结论,
我们使用数据分析工具来做回归方程,我们直接解读结果:

image.png

从结果来看:方程:年薪=-44632.8+2303.837年龄+1952.72工龄+8052.969*教育程度 效果非常好。

如果你只是为了做预测,模型检验到这里就可以了,但如果你要解释模型,并从稳健的角度出发,我们还要看一下模型的先验条件及模型检验:
1.方程是否符合现实逻辑
例如:我们认为随着年龄的增长,年薪也会更高,所以年龄的系数2303.837必须为正数。
2.计量经济检验(共线性、异方差、自相关)
比如:我认为年龄和工龄可能存在自相关(两者的相关系数为0.87),那么我们就需要做一下检验