确定执行的优先级

以垃圾邮件分类为例,我们应该首先实现一个简单的算法,然后通过指标确定下一步做什么。
image.png

错误分析image.png

准确率与召回率

image.png

查准率=(真)/(真的预测为真的,假的预测为真的)
召回率=(真)/(真的预测为真的,真的预测为假的)

F1分数

image.png
image.png
可以自动选择临界值,使得F1最大。

机器学习数据

什么条件下数据越多,算法性能越好?答:首先特征值带有足够的信息量(假设给人类专家一个这样特征值,是否有自信得到Y值,如果可以,说明特征值带有足够信息量),其次算法具有足够的参数(保证低偏差)。具备这两种条件下,数据量越多越好。
image.png