训练集,验证集,测试集

image.png
使用训练集训练是个模型,使用验证集选择d,使用测试集评估泛化误差。如果验证集和测试集相同,那么评估可能不公正,因为使用验证集选择了d,已经说明选择的是误差小,再次用相同的验证集去测试泛化误差说明不了什么。

高偏差与高方差

image.png
偏差:是指一个模型的在不同训练集上的平均性能和最优模型的差异。偏差可以用来衡量一个模型的拟合能力。偏差越大,预测值平均性能越偏离最优模型。偏差衡量模型的预测能力,对象是一个在不同训练集上模型,形容这个模型平均性能对最优模型的预测能力。

方差:( variance)描述的是 一个模型在不同训练集上的差异,描述的是一个模型在不同训练集之间的差异,表示模型的泛化能力,方差越小,模型的泛化能力越强。可以用来衡量一个模型是否容易过拟合。
预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,预测结果数据的分布越散。方差用于衡量一个模型在不同训练集之间的关系,和最优模型无关。对象是不同训练集上的一个模型,表示选取不同的训练集,得出的模型之间的差异性。

正则化和偏差,方差

image.png
对于不同的lamda,使用训练集最小化J(theta),得到12组theta。使用验证集选择一组theta,然后使用测试集得到泛化误差。使用J(theta)训练,但是训练误差由J(train_theta)计算。
image.png
正则化的目的为了防止高次多项式过拟合,如果lamba过小,相当于没有正则化,处于过拟合,因此训练曲线很低。验证曲线很高,泛化能力弱。如果lamda很大,那么模型表达能力不强,无法拟合训练数据,此时训练曲线和验证曲线都很高。只有当lamda在一定水平时,刚好验证误差最小。

学习曲线

  1. 一般情况

image.png

刚开始训练误差都很小,慢慢增大。验证集误差慢慢减小,随着训练集数量的增大,表达能力越来越强。

  1. 高偏差

image.png
因为参数量少,即使增加样本大小,也不能学习出更好的模型。训练误差和验证误差都会增大,直到大致相同。这种属于高偏差情况。

  1. 高方差

image.png

高幂次项的存在,一般会导致过拟合,从而泛化能力差。伴随着训练集数量的不断增大,可以改善此情况,但是依然训练误差小。验证误差大,两者之间存在一个gap。

总结

image.png
image.png