训练/验证/测试集

在机器学习发展的小数据量时代,常见做法是将所有数据三七分,就是人们常说的 70% 验证集,30%测试集,如果没有明确设置验证集,也可以按照 60%训练,20%验证和 20%测 试集来划分。这是前几年机器学习领域普遍认可的最好的实践方法。
在大数据时代,我们现在的数据量可能是百万级别,那么验证集和测试集占数据总 量的比例会趋向于变得更小。

偏差/方差

偏差体现的是偏离目标的程度,方差体现的是离散的程度。
image.png

过拟合/欠拟合

image.png
左图展示了「欠拟合」的情况,对应高偏差(high bias),右图展示了「过拟合」的情况,对应高方差(high variance),这是直观理解,在输入只有两个特征的情况下可进行可视化理解。对于高维度的输入,理解偏差和方差的两个关键数据是训练集误差(Train set error)和验证集误差(Dev set error)。
一般来说,最优误差也被称为贝叶斯误差,

train set error 1% 15% 15% 0.5%
dev set error 11% 16% 30% 1%
high variance
—过拟合
high bias
—欠拟合
high bias
high variance
low bias
low variance

过拟合的解决方式:正则化,后续学习

Q:怎么区分欠拟合和过拟合
欠拟合时,训练集误差和验证集误差都很大
过拟合时,训练集误差较小验证集误差很大