训练/验证/测试集
在机器学习发展的小数据量时代,常见做法是将所有数据三七分,就是人们常说的 70% 验证集,30%测试集,如果没有明确设置验证集,也可以按照 60%训练,20%验证和 20%测 试集来划分。这是前几年机器学习领域普遍认可的最好的实践方法。
在大数据时代,我们现在的数据量可能是百万级别,那么验证集和测试集占数据总 量的比例会趋向于变得更小。
偏差/方差
过拟合/欠拟合

左图展示了「欠拟合」的情况,对应高偏差(high bias),右图展示了「过拟合」的情况,对应高方差(high variance),这是直观理解,在输入只有两个特征的情况下可进行可视化理解。对于高维度的输入,理解偏差和方差的两个关键数据是训练集误差(Train set error)和验证集误差(Dev set error)。
一般来说,最优误差也被称为贝叶斯误差,
| train set error | 1% | 15% | 15% | 0.5% |
|---|---|---|---|---|
| dev set error | 11% | 16% | 30% | 1% |
| high variance —过拟合 |
high bias —欠拟合 |
high bias high variance |
low bias low variance |
过拟合的解决方式:正则化,后续学习
Q:怎么区分欠拟合和过拟合
欠拟合时,训练集误差和验证集误差都很大
过拟合时,训练集误差较小验证集误差很大
