检查:偏差和方差(Debugging: Bias and Variance)

到目前为止,已经看到了多种类型的机器学习算法是如何实现的。通常的目标是在新的测试数据上得到尽可能高的预测准确率,来自测试集上的样本是算法在训练期间未曾见过的。事实证明,训练数据上的准确率有一个上限,该上限是可以在测试数据上预测出来的(有时,在测试数据上的小样本量上能得到较幸运,更好的效果,但平均来看却倾向于较差的效果)。

从某种意义上说,训练数据是“容易”(学习或者说“容易”拟合),因为模型的参数的训练是基于训练集数据训练得出的,也因该原因,在训练集数据和测试集数据间的准确率总是有差距。