对于线性的理解
- 假定
是自变量,
是因变量,且满足线性关系:
- 线性假定并不要求初始模型都呈上述的严格线性关系,自变量与因变量可通过变量替换而转成线性关系模型,如:
- 假设
是某产品品质评分(1-10之间),
为该产品的产量。我们建立一元线性回归模型,得到
- 3.4:在评分为0时,该产品的平均销售为3.4
- 2.3:评分每增加一个单位,该产品的平均销量可增2.3
- 如果现在有两个自变量,
表示品质评分,
表示该产品的价格。我们建立多元线性回归模型,的到
- 5.3:评分为0且价格为0时,该产品的平均销量为5.3(没显示意义,可以不分析)
- 0.19:在保持其他变量不变的情况下,评分每增加一个单位,该产品的平均销量增加0.19
- -1.74:在保持其他变量不变的情况下,价格每增加一个单位,该产品的平均销量减少1.74
为无法观测但满足一定条件的扰动项。如果误差项
和所有的自变量
均不相关,则称该回归模型具有外生性,如果相关,则存在内生性,内生性会导致回归系数估计得不准确:不满足无偏和一致性。
引例中一元回归模型中,误差项包含价格,而价格和品质评分有关,所以导致了内生性。
核心解释变量和控制变量
无内生性要求所有的解释变量均与扰动项不相关,这个假定通常太强,因为解释变量一般很多。
- 要弱化此条件,可以将解释变量分为核心解释变量和控制变量两类,只要保证核心解释变量与
不相关即可。
- 核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计。
控制变量:对这些变量本身并无太大兴趣,只是为了“控制住”那些对被解释变量有影响的遗漏因素。即把与核心解释变量有关的变量全放入回归中。
回归系数的解释
回归估计方程:
- 取对数意味着原被解释变量对解释变量的弹性,即百分比的变化而不是数值的变化。
- 目前,对于什么时候取对数还没有固定的规则,但是有一些经验法则:
- 与市场价值有关的,例如:价格、销售额、工资等都可以取对数;
- 以年度量的变量,如受教育年限、工作经历等通常不取对数。
- 比例变量,如失业率、参与率等,两者皆可;
- 变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y)。
- 取对数的好处:
- 一元线性回归:
,
每增加1个单位,
平均变化
个单位;
- 双对数模型:
,
每增加1%,
平均变化b%;
- 半对数模型:
,
每增加1%,
平均变化b/100个单位;
- 半对数模型:
,
每增加1个单位,
平均变化(100b)%个单位。
虚拟变量
表示第
个样本为女性;
表示第
个样本为男性;
- 核心解释变量:
;
- 控制变量:
(和女性有关的变量)
- 回归分为解释性回归和预测性回归:
- 预测性回归一般才会更看重
- 解释性回归更多关注模型整体显著性、自变量的统计显著性和经济意义显著性
- 预测性回归一般才会更看重
- 可以对模型进行调整,例如对数据取对数或者平方后再进行回归。
- 数据中可能存在异常值或者数据得分布季度不均匀。
拟合优度和调整后的拟合优度
- 我们引入的自变量越多,拟合优度会变大,显然这不是我们想要的。我们倾向于使用调整后的拟合优度,如果新引入的自变量对残差SSE的减少程度特别少,那么调整后的拟合有毒反而会减小。
标准化回归系数
- 为了更为精准的研究影响评价量的重要因素(去除量纲的影响),我们可以考虑使用标准化回归系数。
- 对数据进行标准化,就是将原始数据减去它的均数后,再除以该变量的标准差,回归后相应可得到标准化回归系数。
- 标准化回归系数的绝对值越大,说明对因变量的影响就越大(只关心显著的回归系数)
对数据进行标准化处理不会影响回归系数的标准误,也不会影响显著性。
异方差
在之前的回归分析中,我们都默认了扰动项
是球形扰动项:满足“同方差”(
)和“无自相关”(
)两个条件。
- 横截面数据容易出现异方差的问题;时间序列数据容易出现自相关的问题。
异方差的后果
- OLS估计出来的回归系数是无偏、一致的。
- 假设检验无法使用(构造的统计量失效了)。
-
检验异方差
可以画残差和拟合值(或自变量)的散点图,分布均匀则没有异方差。
BP检验和怀特检验。后者还包括平方项与交叉项,因此,BP检验可以看成怀特检验的特例。BP检验的Stata命令:estat hettest,rhs iid;怀特检验的Stata命令:estat imtest,white
解决异方差
使用OLS+稳健的标准误(用得多)
- 任然使用OLS回归,但使用稳健标准误差。这是最简单,也是目前最通用的方法。只要样本容量较大,即使存在异方差的情况下,若使用稳健标准误,则所有参数估计、假设检验均可照常进行。
- Stata命令:regress y x_1 x_2 … x_k ,robust
- 广义最小二乘法GLS
- 如果数据矩阵
不满列秩,即某一解释变量可以由其他解释变量线性表出,则存在“严格多重共线性”(完全多重共线性)。
- 如果将第
个解释变量
对其余的解释变量
进行回归,所得到的可决系数较高,则存在近似多重共线性。
表现
- 方差膨胀因子(VIF):假设现在又
个自变量,那么第
个自变量的
时将第
个自变量作为因变量,对剩下的
个自变量回归得到的拟合优度。
- 如果只是为了预测,即不关心具体的回归系数,则存在多重共线性没有影响(假设整个方程是显著的)。这是因为,多重共线性的主要后果是使得对单个变量的贡献不准,但所有变量的整体效果仍可以较准确的估计。
- 如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,那么也可以不必理会。即使在有方差膨胀的情况下,这些系数依然显著;如果没有多重共线性,则只会更加显著。
- 如果多重共线性影响到所关心变量(核心解释变量)的显著性,则需要增大样本容量,剔除导致严重共线性的变量(不要轻易删除,因为可能会有内生性的影响),或对模型设定进行修改。
解决多重共线性
- 向前逐步回归:将自变量逐个引入模型,每引入一个自变量后都要进行检验,显著时才加入回归模型。缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了,但并没有将其及时从回归方程中剔除掉。
- 向后逐步回归:与向前逐步回归相反,先将所有变量均放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的便宜是否有显著变异,之后将最没有解释力的那个自变量剔除;此过程不断迭代,直到没有自变量符合剔除的条件。缺点:一开始就把全部变量都引入回归方程,这样计算量比较大。