对于线性的理解

  • 假定多元线性回归 - 图1是自变量,多元线性回归 - 图2是因变量,且满足线性关系:多元线性回归 - 图3
  • 线性假定并不要求初始模型都呈上述的严格线性关系,自变量与因变量可通过变量替换而转成线性关系模型,如:

多元线性回归 - 图4

  • 这种关系需要在建模前对数据进行预处理。

    探究内生性

    引例

  1. 假设多元线性回归 - 图5是某产品品质评分(1-10之间),多元线性回归 - 图6为该产品的产量。我们建立一元线性回归模型,得到多元线性回归 - 图7
    1. 3.4:在评分为0时,该产品的平均销售为3.4
    2. 2.3:评分每增加一个单位,该产品的平均销量可增2.3
  2. 如果现在有两个自变量,多元线性回归 - 图8表示品质评分,多元线性回归 - 图9表示该产品的价格。我们建立多元线性回归模型,的到多元线性回归 - 图10
    1. 5.3:评分为0且价格为0时,该产品的平均销量为5.3(没显示意义,可以不分析)
    2. 0.19:在保持其他变量不变的情况下,评分每增加一个单位,该产品的平均销量增加0.19
    3. -1.74:在保持其他变量不变的情况下,价格每增加一个单位,该产品的平均销量减少1.74
  • 可以看到,引入了新的自变量价格后,对回归系数的影响非常大!
  • 原因:遗漏变量导致的内生性

    内生性

  • 假设我们的模型为:

多元线性回归 - 图11
多元线性回归 - 图12为无法观测但满足一定条件的扰动项。如果误差项多元线性回归 - 图13和所有的自变量多元线性回归 - 图14均不相关,则称该回归模型具有外生性,如果相关,则存在内生性,内生性会导致回归系数估计得不准确:不满足无偏和一致性。

  • 引例中一元回归模型中,误差项包含价格,而价格和品质评分有关,所以导致了内生性。

    核心解释变量和控制变量

  • 无内生性要求所有的解释变量均与扰动项不相关,这个假定通常太强,因为解释变量一般很多。

  • 要弱化此条件,可以将解释变量分为核心解释变量和控制变量两类,只要保证核心解释变量与多元线性回归 - 图15不相关即可。
  • 核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计。
  • 控制变量:对这些变量本身并无太大兴趣,只是为了“控制住”那些对被解释变量有影响的遗漏因素。即把与核心解释变量有关的变量全放入回归中。

    回归系数的解释

  • 回归估计方程:

多元线性回归 - 图16

  1. 多元线性回归 - 图17的数值意义一般我们不考虑,因为所有的自变量不会同时为0。
  2. 多元线性回归 - 图18是控制其他自变量不变的情况下,多元线性回归 - 图19每增加一个单位,对多元线性回归 - 图20造成的变化,即多元线性回归 - 图21,因此多元线性回归模型中的回归系数,也称为偏回归系数。

    什么时候取对数?

  • 取对数意味着原被解释变量对解释变量的弹性,即百分比的变化而不是数值的变化。
  • 目前,对于什么时候取对数还没有固定的规则,但是有一些经验法则:
    1. 与市场价值有关的,例如:价格、销售额、工资等都可以取对数;
    2. 以年度量的变量,如受教育年限、工作经历等通常不取对数。
    3. 比例变量,如失业率、参与率等,两者皆可;
    4. 变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y)。
  • 取对数的好处:
    1. 较弱数据的异方差性;
    2. 如果变量本身不符合正态分布,取了对数后可能渐进服从正态分布;
    3. 模型形式的需要,让模型具有经济学意义。

      四类模型回归系数的解释

  1. 一元线性回归:多元线性回归 - 图22多元线性回归 - 图23每增加1个单位,多元线性回归 - 图24平均变化多元线性回归 - 图25个单位;
  2. 双对数模型:多元线性回归 - 图26多元线性回归 - 图27每增加1%,多元线性回归 - 图28平均变化b%;
  3. 半对数模型:多元线性回归 - 图29多元线性回归 - 图30每增加1%,多元线性回归 - 图31平均变化b/100个单位;
  4. 半对数模型:多元线性回归 - 图32多元线性回归 - 图33每增加1个单位,多元线性回归 - 图34平均变化(100b)%个单位。

    虚拟变量

  • 回归处理的是定量数据,那么定性数据怎么处理?
  • Stata对虚拟变量的处理很友好,可以使用这个软件进行分析。

    单分类

  • 我们要研究性别对于工资的影响:

多元线性回归 - 图35

  1. 多元线性回归 - 图36表示第多元线性回归 - 图37个样本为女性;
  2. 多元线性回归 - 图38表示第多元线性回归 - 图39个样本为男性;
  3. 核心解释变量:多元线性回归 - 图40
  4. 控制变量:多元线性回归 - 图41(和女性有关的变量)
    1. 多元线性回归 - 图42
    2. 多元线性回归 - 图43
    3. 多元线性回归 - 图44多元线性回归 - 图45多元线性回归 - 图46显著异于0才有意义)
    4. 多元线性回归 - 图47可解释为:在其他自变量给定的情况下,女性的平均工资与男性的平均工资的差异。(男性平均工资为对照组)

      多分类

  • 多分类变量中一个是对照组,其余变量是虚拟变量,这是为了避免完全多重共线性的影响,所以引入虚拟变量的个数一般是分类数-1

    拟合优度较低

  1. 回归分为解释性回归和预测性回归:
    1. 预测性回归一般才会更看重多元线性回归 - 图48
    2. 解释性回归更多关注模型整体显著性、自变量的统计显著性和经济意义显著性
  2. 可以对模型进行调整,例如对数据取对数或者平方后再进行回归。
  3. 数据中可能存在异常值或者数据得分布季度不均匀。

    拟合优度和调整后的拟合优度

  • 我们引入的自变量越多,拟合优度会变大,显然这不是我们想要的。我们倾向于使用调整后的拟合优度,如果新引入的自变量对残差SSE的减少程度特别少,那么调整后的拟合有毒反而会减小。

多元线性回归 - 图49 多元线性回归 - 图50

标准化回归系数

  • 为了更为精准的研究影响评价量的重要因素(去除量纲的影响),我们可以考虑使用标准化回归系数。
  • 对数据进行标准化,就是将原始数据减去它的均数后,再除以该变量的标准差,回归后相应可得到标准化回归系数。
  • 标准化回归系数的绝对值越大,说明对因变量的影响就越大(只关心显著的回归系数)
  • 对数据进行标准化处理不会影响回归系数的标准误,也不会影响显著性。

    异方差

  • 在之前的回归分析中,我们都默认了扰动项多元线性回归 - 图51是球形扰动项:满足“同方差”(多元线性回归 - 图52)和“无自相关”(多元线性回归 - 图53)两个条件。

  • 横截面数据容易出现异方差的问题;时间序列数据容易出现自相关的问题。

    异方差的后果

  1. OLS估计出来的回归系数是无偏、一致的。
  2. 假设检验无法使用(构造的统计量失效了)。
  3. OLS估计量不再是最有线性无偏估计。

    检验异方差

  4. 可以画残差和拟合值(或自变量)的散点图,分布均匀则没有异方差。

  5. BP检验和怀特检验。后者还包括平方项与交叉项,因此,BP检验可以看成怀特检验的特例。BP检验的Stata命令:estat hettest,rhs iid;怀特检验的Stata命令:estat imtest,white

    解决异方差

  6. 使用OLS+稳健的标准误(用得多)

    1. 任然使用OLS回归,但使用稳健标准误差。这是最简单,也是目前最通用的方法。只要样本容量较大,即使存在异方差的情况下,若使用稳健标准误,则所有参数估计、假设检验均可照常进行。
    2. Stata命令:regress y x_1 x_2 … x_k ,robust
  7. 广义最小二乘法GLS
    1. 原理:方差较大的数据包含的信息较少,我们可以给予信息量大的数据(即方差较小的数据更大的权重)
    2. 缺点:我们不知道扰动项真实的协方差矩阵,因此我们只能用样本数据来估计,这样得到的结果不稳健,存在偶然性。

      多重共线性

  • 如果数据矩阵多元线性回归 - 图54不满列秩,即某一解释变量可以由其他解释变量线性表出,则存在“严格多重共线性”(完全多重共线性)。
  • 如果将第多元线性回归 - 图55个解释变量多元线性回归 - 图56对其余的解释变量多元线性回归 - 图57进行回归,所得到的可决系数较高,则存在近似多重共线性。

    表现

  1. 虽然整个回归方程的多元线性回归 - 图58较大、多元线性回归 - 图59检验也很显著,但单个系数的多元线性回归 - 图60检验却不显著,或者系数估计值不合理,甚至符号与理论预期相反。
  2. 增减解释变量使得系数估计值发生较大变化。

    如何检验多重共线性

  • 方差膨胀因子(VIF):假设现在又多元线性回归 - 图61个自变量,那么第多元线性回归 - 图62个自变量的多元线性回归 - 图63

多元线性回归 - 图64时将第多元线性回归 - 图65个自变量作为因变量,对剩下的多元线性回归 - 图66个自变量回归得到的拟合优度。

  • 多元线性回归 - 图67越大,说明第多元线性回归 - 图68个变量和其他变量的相关性越大。
  • 如果多元线性回归 - 图69,则认为该回归方程存在严重的多重共线性。Stata命令:estat vif

    多重共线性处理方法

  1. 如果只是为了预测,即不关心具体的回归系数,则存在多重共线性没有影响(假设整个方程是显著的)。这是因为,多重共线性的主要后果是使得对单个变量的贡献不准,但所有变量的整体效果仍可以较准确的估计。
  2. 如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,那么也可以不必理会。即使在有方差膨胀的情况下,这些系数依然显著;如果没有多重共线性,则只会更加显著。
  3. 如果多重共线性影响到所关心变量(核心解释变量)的显著性,则需要增大样本容量,剔除导致严重共线性的变量(不要轻易删除,因为可能会有内生性的影响),或对模型设定进行修改。

    解决多重共线性

  • 向前逐步回归:将自变量逐个引入模型,每引入一个自变量后都要进行检验,显著时才加入回归模型。缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了,但并没有将其及时从回归方程中剔除掉。
  • 向后逐步回归:与向前逐步回归相反,先将所有变量均放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的便宜是否有显著变异,之后将最没有解释力的那个自变量剔除;此过程不断迭代,直到没有自变量符合剔除的条件。缺点:一开始就把全部变量都引入回归方程,这样计算量比较大。