模型选择与评估 - 偏差与方差 - 《机器学习笔记》

除了估计算法的泛化性能，我们往往还希望知道为什么有这样的性能？这时一个有用的工具就是偏差-方差分解（bias-variance decomposition）。

对学习算法的期望泛化错误率进行拆解，最终会发现能拆解为三个项（需要推导）：

依次对应于偏差（bias）、方差（variance）、噪声（noise）：

这三者的含义是这样的：

偏差：学习算法的期望预测与真实结果的偏离程度，刻画算法本身的拟合能力；
方差：使用同规模的不同训练集进行训练时带来的性能变化，刻画*数据扰动带来的影响；
噪声：当前任务上任何算法所能达到的期望泛化误差的下界（即不可能有算法取得更小的误差），刻画问题本身的难度；

也即是说，泛化性能由学习算法的拟合能力，数据的充分性以及问题本身的难度共同决定的。给定一个任务，噪声是固定的，我们需要做得就是尽量降低偏差和方差。

但是这两者其实是有冲突的，这称为偏差-方差窘境（bias-variance dilemma）。给定一个任务，我们可以控制算法的训练程度（如决策树的层数）。在训练程度较低时，拟合能力较差，因此训练数据的扰动不会让性能有显著变化，此时偏差主导泛化错误率；在训练程度较高时，拟合能力很强，以至于训练数据自身的一些特性都会被拟合，从而产生过拟合问题，训练数据的轻微扰动都会令模型产生很大的变化，此时方差主导泛化错误率。

注意，将泛化性能完美地分解为方差、偏差、噪声这三项仅在基于均方误差的回归任务中得以推导出，分类任务由于损失函数的跳变性导致难以从理论上推导出分解形式，但已经有很多方法可以通过实验进行估计了。