偏差-方差权衡

浏览 58 扫码分享 2023-11-27 00:51:40

References:

Mathematics
结合线性回归中，标准线性回归的损失函数，即最小二乘解为偏差-方差权衡 - 图1 ，这是一个无偏估计函数，但潜在的有较大的方差，其期望与方差分别为：
偏差-方差权衡 - 图2
相比之下，岭回归的损失函数可表示为偏差-方差权衡 - 图3 ，可以将岭回归的期望与方差表示为：
偏差-方差权衡 - 图4
其中偏差-方差权衡 - 图5

偏差-方差权衡 - 图6 和偏差-方差权衡 - 图7 的期望与协方差帮我们了解了在模型假设正确的情况下，如何更好的得到我们需要的结果：

最小二乘方式：无偏估计，但潜在的较高的方差
岭回归方式：有偏估计，但比最小二乘方式更低的方差

哪一种方式会更好**

实际工作中，我们更关心对于我们对于选择求解偏差-方差权衡 - 图8 的方案对于应用到新的数据中效果如何。例如拿一组偏差-方差权衡 - 图9 为我们需要预测的数据，假设我们知道偏差-方差权衡 - 图10 但是不知道偏差-方差权衡 - 图11 。

最小二乘法预测得到
岭回归预测得到

为了与性能的平方误差保持一致，我们可以计算我们预测的预期平方误差：
偏差-方差权衡 - 图14

可以是，也可以是
和均是高斯分布，并且包含正确(但未知)的
已知

换个说法，我们可以认为

假设我已经知道和一些正确的潜在的
生成，将看做近似为或者
利用来预测

计算预测的预期平方差：
偏差-方差权衡 - 图30

由于和是相互独立的，因此

代入进式子后变为：
偏差-方差权衡 - 图36
即最后我们得到的泛化误差(训练数据集的损失与一般化的数据集的损失之间的差异就叫做泛化误差)为
偏差-方差权衡 - 图37

噪音：对于给定的模型无法控制的因素
模型偏差：对于平均期望有多接近我们的预期方案
模型方差：我们选择的方案对于数据的敏感程度

泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务，为了取得好的泛化性能，则需使偏差较小，即能够充分拟合数据，并且使方差较小，即使得数据扰动产生的影响小。

References:

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录