2. 1 误差分析
问题引入:在识猫应用中,如果有时会将小狗识别为猫,是否应该花很多时间解决这个问题?
这取决于在错误标记的例子中,将小狗识别为猫的比例高低。如果较高,则值得花时间解决这一问题;否则,未必值得。这个过程即误差分析。
可以并行分析多个问题。如,除了将狗错误识别为猫的问题,还存在将大型猫科动物识别为猫、模糊图像识别率低等问题。
2.2 关注标注错误的数据
深度学习算法对训练集中的随机误差具有较高的“健壮性”,但对于系统性误差比较脆弱。
举例而言,如果训练集中偶尔有一些图片被错误标记为“猫”,可将其看作随机误差,这对训练结果影响很有限;如果训练集中将白色的动物都标注成了“猫”,那就是系统性错误(systematic errors),会对训练结果产生较大影响。
误差分析示例
改正开发集、测试集中的数据
2.3 快速搭建你的第一个系统,并进行迭代
2.4 在不同的划分上进行训练并测试
2.5 不匹配数据划分的偏差和方差
识猫应用中的四种情况:
- 方差问题
- 可避免偏差问题
- 数据不匹配问题
- 可避免偏差+数据不匹配问题
误差分析公式: