确定执行的优先级
以垃圾邮件分类为例,我们应该首先实现一个简单的算法,然后通过指标确定下一步做什么。
错误分析
准确率与召回率

查准率=(真)/(真的预测为真的,假的预测为真的)
召回率=(真)/(真的预测为真的,真的预测为假的)
F1分数
机器学习数据
什么条件下数据越多,算法性能越好?答:首先特征值带有足够的信息量(假设给人类专家一个这样特征值,是否有自信得到Y值,如果可以,说明特征值带有足够信息量),其次算法具有足够的参数(保证低偏差)。具备这两种条件下,数据量越多越好。
让时间为你证明