19. 小结:基本误差分析

  • 当你开始一个新项目,特别是当你并不是该领域的专家时,很难正确猜测最有希望的方向;
  • 不要一开始就计划着构建一个完美的系统,尝试在短短的几天时间内快速建立并训练出一个初始系统来,然后使用误差分析手段来识别出最有前途的优化方向并从这个方向出发对算法进行迭代;
  • 通过手动检查的方式分析100个算法误分类的开发集样例,并算出主要的错误类别的比例。利用这个信息来确定优先级顺序;
  • 考虑将开发集分割成眼球开发集(手动检查)和黑盒开发集(不手动检查)。如果算法在眼球开发集的表现比黑盒开发集的表现好的多,那么说明你已经过拟合了眼球开发集,此时应考虑为眼球开发集获取更多的数据。
  • 眼球开发集应该足够大以便你的算法能提供足够的误分类样本供你分析。对于很多应用程序来说,1000-10000个样本大小的黑盒开发集足够了;
  • 如果你的开发集不够大,将无法按照这种方式拆分,此时只需将整个开发集当作眼球开发集进行手动错误分析、模型选择和参数调优。