21. 举例说明偏差和方差

考虑我们的猫分类任务。一个“理想”的分类器（比如人）在这项任务中可能会取得近乎完美的表现。

假设你的算法表现如下：

从上边的数据能看出什么问题吗？应用前一节的定义，我们估计该分类器的偏差为1%，同时方差为10%（11%-1%=10%）。因此，它存在高方差(High Variance)问题。分类器的训练集误差很小，但未能把在训练集上完美表现推广到开发集中，这也被称为“过拟合”(Overfitting)。

现在，算法表现变成了下列所示：

我们估计该分类器的偏差达到了15%，方差是1%。这个分类器对训练集的拟合效果很差，误差居然有15%，但是它在开发集上的误差和训练集上相当（也有16%）。因此该分类器存在高偏差(High Bias)问题，这也被称为“欠拟合”(Underfitting)。

再来看一种情况：

我们估计偏差为15%，方差也达到了15%。该分类器同时存在高偏差和高方差问题：训练集的表现效果很差，因此偏差很大，同时他在开发集的表现更差，因此方差也很大。这是由于分类器模型设计的有问题，属于最糟糕的情况，欠拟合/过拟合的优化技术很难应用到这类情况中来。

再来看最后一种情况：

这个分类器表现完美，同时拥有低方差和低偏差，祝贺你取得了这样的成绩。