Mathematics
结合线性回归中,标准线性回归的损失函数,即最小二乘解为,这是一个无偏估计函数,但潜在的有较大的方差,其期望与方差分别为:
相比之下,岭回归的损失函数可表示为,可以将岭回归的期望与方差表示为:
其中
和
的期望与协方差帮我们了解了在模型假设正确的情况下,如何更好的得到我们需要的结果:
- 最小二乘方式:无偏估计,但潜在的较高的方差
- 岭回归方式:有偏估计,但比最小二乘方式更低的方差
哪一种方式会更好**
实际工作中,我们更关心对于我们对于选择求解的方案对于应用到新的数据中效果如何。例如拿一组
为我们需要预测的数据,假设我们知道
但是不知道
。
- 最小二乘法预测得到
- 岭回归预测得到
为了与性能的平方误差保持一致,我们可以计算我们预测的预期平方误差:
可以是
,也可以是
和
均是高斯分布,并且包含正确(但未知)的
已知
换个说法,我们可以认为
- 假设我已经知道
和一些正确的潜在的
- 生成
,将
看做近似为
或者
- 利用
来预测
计算预测的预期平方差:
- 由于
和
是相互独立的,因此
代入进式子后变为:
即最后我们得到的泛化误差(训练数据集的损失与一般化的数据集的损失之间的差异就叫做泛化误差)为
- 噪音:对于给定的模型无法控制的因素
- 模型偏差:对于平均期望有多接近我们的预期方案
- 模型方差:我们选择的方案对于数据的敏感程度
泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响小。