第一章 概述

统计关系:没有密切到 x 唯一确定y ,函数关系相反

回归名字由来:高尔顿某个paper指出,子代平均身高向中心回归

古典线性回归模型的基本假设:

  • 应用回归分析(第五版) - 图1 为随机变量 ,观测值为常数
  • 等方差及不相关:高斯-马尔科夫条件G-M条件。

在此条件下,可以得到关于回归系数的最小二乘估计(最小方差线性无偏估计)和误差项方差sigma平方估计。

  • 正态分布的假定条件

在此条件下,可以得到关于回归系数的最小二乘估计(最小方差无偏估计)和误差项方差sigma平方估计。并且可以进行回归显著性检验和区间估计

  • 样本数n> 解释变量个数p

研究问题:

参数估计,系数的假设检验,预测x对y和控制y对x

回归模型的研究过程

确定解释变量x:

保证有效性,x之间应该是不相关的
实际中没有的统计数据,考虑相近的变量或者其他指标复合。
共线性问题

收集数据:

  • 时间序列:

数据的可比性,统计口径一致
序列相关:查分法

  • 横截面数据:

异方差:高的x 和 低的x 对于随机项的方差不同。
异常值和缺失值处理
样本数n 应该是 解释变量个数p 的10倍

确定回归模型:

绘图:直线曲线 增加随机项

估计模型参数:

普通最小二乘

不满足基本假设:岭回归,主成分回归,偏最小二乘

新流行:分位数参数估计,贝叶斯参数估计(不在spss中)

模型检验:

是否真正揭示了x与y的关系

回归方程的显著性检验,回归系数的显著性检验,拟合优度的检验,随机误差项的序列相关检验,异方差性检验,多重共线性检验。(统计意义)

此外,系数还要符合实际统计规律,为正数之类的。(实际意义)

运用:

预测和控制

发展评述

基础分析:时间序列分析,判别分析,主成分分析,因子分析,典型相关分析
回归分析:自变量的选择,稳健回归,回归诊断,投影寻踪,分位回归,非参数回归

自变量为时间,因变量不独立构成平稳序列:时间序列分析
一元回归,多元回归,多重回归(xy都是多维的),
半相依回归方程系统:因变量观察矩阵Y 的行向量都是独立的,列向量假定相关。
有偏估计(针对病态的X):岭估计,压缩估计,主成分估计,Stein估计,特征根估计
异常值的敏感性:稳健回归
验证样本数据对统计推断的影响:回归诊断
非线性:非线性回归(数学规划理论)

第二章 一元线性回归

数学形式:
假定 满足
应用回归分析(第五版) - 图2

假定n组数据是独立观测的,因而 都是相互独立的随机变量

数学期望和方差:

表明应用回归分析(第五版) - 图3 的期望不等,方差相等,所以应用回归分析(第五版) - 图4 并不是同分布的,而 是同分布的。

为了方便对参数做区间估计和假设检验,假定 随机误差项 服从正态分布

所以有

应用回归分析(第五版) - 图5

参数估计

普通最小二乘估计

求解这个最优化问题即可

正规方程的最小二乘估计为:

残差的一个性质:

其中

最大似然估计

假设:

求解 的似然函数即可。

误差项的无偏估计量

最小二乘估计的性质

1.无偏性

2.方差有:

表示若 x 的波动较大, 的波动较小 ,稳定性较好。

表示 n越大,, 的波动较小 ,稳定性较好。

所以样本收集时应该把x 的取值尽量分散一点,样本数多一点

综上,有
这个是方差最小的线性无偏估计
对于 预测值 y0,有
![](https://cdn.nlark.com/yuque/__latex/053a8037a7f69fa116ed954c3806459a.svg#card=math&code=%5Chat%7By%7D_0%20%5Csim%20N%28%5Cbeta_0%2B%5Cbeta_1x%2C%5B%5Cfrac%7B1%7D%7Bn%7D%2B%5Cfrac%7B%28x_0-%5Cbar%7Bx%7D%29%5E2%7D%7BL
%7Bxx%7D%7D%5D%5Csigma%5E2%29%5C%5C&id=VjeHq)
所以在预测和控制时,不能离样本均值太远

显著性检验

t 检验

原假设: 对立假设:
依据
构造t 统计量

即 t 为 系数值 除以 系数值的标准差,服从自由度为n-2 的t分布
Pvalue 为拒绝原假设的概率,当p小于显著性水平的一半(双侧)时,beta_1 显著不为0时,拒绝原假设,回归效果显著

F检验

依据 SSE要小点,SSR要大点,回归效果好
F统计量:

服从自由度为(1,n-2)的F分布

相关检验

样本相关系数

相关系数与回归系数符号相同
统计量

样本相关系数r 是总体相关系数 的估计值

高相关:0.8-1 ,中相关:0.5-0.8 ,低相关: 0.3-0.5 ,弱相关 0-0.3

显著性检验只能说明相关显著不为0 ,不能说明相关强弱。

所以要 显著性检验+总体相关系数 一起展示才更好。

三种检验关系

t检验和相关检验的t 完全一致
F检验是 t检验的平方

一元线性回归三种检验等价,多元并不等价。

决定系数 R^2

就是相关系数的平方,反应拟合优度

如果决定系数r^2 接近1,说明因变量不确定性的绝大部分能由回归方程解释,回归方程拟合优度好;
反之,如果r^2不大,说明回归方程的效果不好,应该进行修改,可考虑增加新的自变量或者用曲线拟合。
需要注意:

  • 当样本量较小时,即使决定系数较大,也可能是虚假现象。
  • 当样本量不小,决定系数很大,也不能肯定自变量与因变量之间的关系就是线性的,因为有可能曲线回归的效果更好,尤其是x取值范围很窄时,线性回归的效果通常较好,这样的线性回归方程是不能用于外推预测的,可以使用模型失拟检验 lack of fit test 来判断究竟是线性还是曲线关系,并且是哪一种曲线关系(这种检验需要有重复观测数据) 当没有重复观测时,可以使用残差分析方法来判定回归方程的正确性。
  • 不论检验结果是否显著,都应该尝试改进回归的效果,增加自变量或者改用曲线回归。

残差分析

检验出显著的回归效果后,在利用回归方程做分析和预测前,需要利用残差图检验模型是否满足基本假定。

  • 随机变化:可以
  • 方差不同,随着x增大方差增大:异方差第四章
  • 非线性:曲线拟合或者y存在自相关
  • y存在自相关

有关残差的性质:

  • 应用回归分析(第五版) - 图6
  • 称为杠杆值,范围在0-1之间
    说明,靠近 应用回归分析(第五版) - 图7 的点相应的残差方差较大,远离 应用回归分析(第五版) - 图8 的点相应的残差方差较 小

  • e_i 之间是相关的,不是独立的

一般认为拆过两个标准差或者3个的残差称为异常值。
定义 标准化残差
学生化残差 应用回归分析(第五版) - 图9

Z 具有可比性,相应观测值判定为异常值,没有解决方差不等的问题,寻找异常值时,使用T更优,认为绝对值SRE大于3的相应观测值为异常值

应用回归分析(第五版) - 图10 即可

预测和控制:
单值预测很简单,
区间预测:一种是y新值的区间预测,一种是y新值平均值的区间预测

  • 因变量y新值的区间预测

统计量t 服从 n-2的t分布

  • 因变量y新值的平均值区间预测

统计量t 服从 n-2的t分布

控制问题:根据区间列出不等式进行求解

回归问题的预测问题:注意内插的效果较好,外插的效果一般不好