第一章 概述
统计关系:没有密切到 x 唯一确定y ,函数关系相反
回归名字由来:高尔顿某个paper指出,子代平均身高向中心回归
古典线性回归模型的基本假设:
为随机变量 ,观测值为常数
- 等方差及不相关:高斯-马尔科夫条件G-M条件。
在此条件下,可以得到关于回归系数的最小二乘估计(最小方差线性无偏估计)和误差项方差sigma平方估计。
- 正态分布的假定条件
在此条件下,可以得到关于回归系数的最小二乘估计(最小方差无偏估计)和误差项方差sigma平方估计。并且可以进行回归显著性检验和区间估计
- 样本数n> 解释变量个数p
研究问题:
参数估计,系数的假设检验,预测x对y和控制y对x
回归模型的研究过程
确定解释变量x:
保证有效性,x之间应该是不相关的
实际中没有的统计数据,考虑相近的变量或者其他指标复合。
共线性问题
收集数据:
- 时间序列:
数据的可比性,统计口径一致
序列相关:查分法
- 横截面数据:
异方差:高的x 和 低的x 对于随机项的方差不同。
异常值和缺失值处理
样本数n 应该是 解释变量个数p 的10倍
确定回归模型:
绘图:直线曲线 增加随机项
估计模型参数:
普通最小二乘
不满足基本假设:岭回归,主成分回归,偏最小二乘
新流行:分位数参数估计,贝叶斯参数估计(不在spss中)
模型检验:
是否真正揭示了x与y的关系
回归方程的显著性检验,回归系数的显著性检验,拟合优度的检验,随机误差项的序列相关检验,异方差性检验,多重共线性检验。(统计意义)
此外,系数还要符合实际统计规律,为正数之类的。(实际意义)
运用:
预测和控制
发展评述
基础分析:时间序列分析,判别分析,主成分分析,因子分析,典型相关分析
回归分析:自变量的选择,稳健回归,回归诊断,投影寻踪,分位回归,非参数回归
自变量为时间,因变量不独立构成平稳序列:时间序列分析
一元回归,多元回归,多重回归(xy都是多维的),
半相依回归方程系统:因变量观察矩阵Y 的行向量都是独立的,列向量假定相关。
有偏估计(针对病态的X):岭估计,压缩估计,主成分估计,Stein估计,特征根估计
异常值的敏感性:稳健回归
验证样本数据对统计推断的影响:回归诊断
非线性:非线性回归(数学规划理论)
第二章 一元线性回归
数学形式:
假定 满足
假定n组数据是独立观测的,因而 都是相互独立的随机变量
数学期望和方差:
表明 的期望不等,方差相等,所以
并不是同分布的,而 是同分布的。
为了方便对参数做区间估计和假设检验,假定 随机误差项 服从正态分布
即
所以有
参数估计
普通最小二乘估计
求解这个最优化问题即可
正规方程的最小二乘估计为:
记
残差的一个性质:
其中
最大似然估计
假设:
求解 的似然函数即可。
误差项的无偏估计量
最小二乘估计的性质
1.无偏性
2.方差有:
表示若 x 的波动较大, 的波动较小 ,稳定性较好。
表示 n越大,, 的波动较小 ,稳定性较好。
所以样本收集时应该把x 的取值尽量分散一点,样本数多一点
综上,有
这个是方差最小的线性无偏估计
对于 预测值 y0,有

所以在预测和控制时,不能离样本均值太远
显著性检验
t 检验
原假设: 对立假设:
依据
构造t 统计量
即 t 为 系数值 除以 系数值的标准差,服从自由度为n-2 的t分布
Pvalue 为拒绝原假设的概率,当p小于显著性水平的一半(双侧)时,beta_1 显著不为0时,拒绝原假设,回归效果显著
F检验
依据 SSE要小点,SSR要大点,回归效果好
F统计量:
服从自由度为(1,n-2)的F分布
相关检验
样本相关系数
相关系数与回归系数符号相同
统计量
样本相关系数r 是总体相关系数 的估计值
高相关:0.8-1 ,中相关:0.5-0.8 ,低相关: 0.3-0.5 ,弱相关 0-0.3
显著性检验只能说明相关显著不为0 ,不能说明相关强弱。
所以要 显著性检验+总体相关系数 一起展示才更好。
三种检验关系
t检验和相关检验的t 完全一致
F检验是 t检验的平方
一元线性回归三种检验等价,多元并不等价。
决定系数 R^2
就是相关系数的平方,反应拟合优度
如果决定系数r^2 接近1,说明因变量不确定性的绝大部分能由回归方程解释,回归方程拟合优度好;
反之,如果r^2不大,说明回归方程的效果不好,应该进行修改,可考虑增加新的自变量或者用曲线拟合。
需要注意:
- 当样本量较小时,即使决定系数较大,也可能是虚假现象。
- 当样本量不小,决定系数很大,也不能肯定自变量与因变量之间的关系就是线性的,因为有可能曲线回归的效果更好,尤其是x取值范围很窄时,线性回归的效果通常较好,这样的线性回归方程是不能用于外推预测的,可以使用模型失拟检验 lack of fit test 来判断究竟是线性还是曲线关系,并且是哪一种曲线关系(这种检验需要有重复观测数据) 当没有重复观测时,可以使用残差分析方法来判定回归方程的正确性。
- 不论检验结果是否显著,都应该尝试改进回归的效果,增加自变量或者改用曲线回归。
残差分析
检验出显著的回归效果后,在利用回归方程做分析和预测前,需要利用残差图检验模型是否满足基本假定。
- 随机变化:可以
- 方差不同,随着x增大方差增大:异方差第四章
- 非线性:曲线拟合或者y存在自相关
- y存在自相关
有关残差的性质:
称为杠杆值,范围在0-1之间
说明,靠近的点相应的残差方差较大,远离
的点相应的残差方差较 小
e_i 之间是相关的,不是独立的
一般认为拆过两个标准差或者3个的残差称为异常值。
定义 标准化残差
学生化残差
Z 具有可比性,相应观测值判定为异常值,没有解决方差不等的问题,寻找异常值时,使用T更优,认为绝对值SRE大于3的相应观测值为异常值
即可
预测和控制:
单值预测很简单,
区间预测:一种是y新值的区间预测,一种是y新值平均值的区间预测
- 因变量y新值的区间预测
统计量t 服从 n-2的t分布
- 因变量y新值的平均值区间预测
统计量t 服从 n-2的t分布
控制问题:根据区间列出不等式进行求解
回归问题的预测问题:注意内插的效果较好,外插的效果一般不好
