Mathematics
结合线性回归中,标准线性回归的损失函数,即最小二乘解为偏差-方差权衡 - 图1,这是一个无偏估计函数,但潜在的有较大的方差,其期望与方差分别为:
偏差-方差权衡 - 图2
相比之下,岭回归的损失函数可表示为偏差-方差权衡 - 图3,可以将岭回归的期望与方差表示为:
偏差-方差权衡 - 图4
其中偏差-方差权衡 - 图5

偏差-方差权衡 - 图6偏差-方差权衡 - 图7的期望与协方差帮我们了解了在模型假设正确的情况下,如何更好的得到我们需要的结果:

  • 最小二乘方式:无偏估计,但潜在的较高的方差
  • 岭回归方式:有偏估计,但比最小二乘方式更低的方差


哪一种方式会更好**

实际工作中,我们更关心对于我们对于选择求解偏差-方差权衡 - 图8的方案对于应用到新的数据中效果如何。例如拿一组偏差-方差权衡 - 图9为我们需要预测的数据,假设我们知道偏差-方差权衡 - 图10但是不知道偏差-方差权衡 - 图11

  • 最小二乘法预测得到偏差-方差权衡 - 图12
  • 岭回归预测得到偏差-方差权衡 - 图13

为了与性能的平方误差保持一致,我们可以计算我们预测的预期平方误差:
偏差-方差权衡 - 图14

  • 偏差-方差权衡 - 图15可以是偏差-方差权衡 - 图16,也可以是偏差-方差权衡 - 图17
  • 偏差-方差权衡 - 图18偏差-方差权衡 - 图19均是高斯分布,并且包含正确(但未知)的偏差-方差权衡 - 图20
  • 偏差-方差权衡 - 图21已知

换个说法,我们可以认为

  • 假设我已经知道偏差-方差权衡 - 图22和一些正确的潜在的偏差-方差权衡 - 图23
  • 生成偏差-方差权衡 - 图24,将偏差-方差权衡 - 图25看做近似为偏差-方差权衡 - 图26或者偏差-方差权衡 - 图27
  • 利用偏差-方差权衡 - 图28来预测偏差-方差权衡 - 图29

计算预测的预期平方差:
偏差-方差权衡 - 图30

  • 由于偏差-方差权衡 - 图31偏差-方差权衡 - 图32是相互独立的,因此偏差-方差权衡 - 图33
  • 偏差-方差权衡 - 图34
  • 偏差-方差权衡 - 图35

代入进式子后变为:
偏差-方差权衡 - 图36
即最后我们得到的泛化误差(训练数据集的损失与一般化的数据集的损失之间的差异就叫做泛化误差)为
偏差-方差权衡 - 图37

  • 噪音:对于给定的模型无法控制的因素
  • 模型偏差:对于平均期望有多接近我们的预期方案
  • 模型方差:我们选择的方案对于数据的敏感程度

泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响小。

References: