y^ =1 y^=0 Σ
    y=1 TP FN N+
    y=0 FP TN N-
    Σ N^+ N^-
    • 正确率/错误率 分类模型的评价 - 图1
    • Receiver Operating Characteristic (ROC)

      TPR-true positive rate, sensitivity, recall, hit rate 预测结果召回了多少真正的真样本 FPR–False positive rate, false alarm, fallout 预测结果将多少假的样本预测预测成了真

    image.png

    • Precision and Recall (PR曲线)

      用于稀有事件检测,如目标 检测、信息检索这些负样本非常多的场景,因此FPR=FP ⁄N- 很小,比较TPR和FPR意义不大,这种场景下只讨论正样本 Precision= TP/N+^ 返回结果中为positive 文档的数目/返回结果的数目 Recall=TP/N+ 返回结果中为positive 文档的数目/所有相关文档的数

    image.png

    • AP: Average Precision,对不同召回率点上的精度进行平均

      Precision只考虑了返回结果中为positive 文档的个数,没有考虑文档之间的序,对一个搜索引擎或推荐系统而言,返回的结果是有序的,且越相关的文档 越靠前越好

    分类模型的评价 - 图4 即PR曲线下的面积,其中k为返回文档中的的序号,n为返回文档的数目,p(k)为k点的precision,Δr(k)表示从k-1到k Recall的变化

    • MAP: 多个查询的AP平均
    • MAP@K(MAPK):多个查询Precision@K的平均

      Precision@K:在第K个位置上的Precision,对于搜索引擎,考虑到大部分作者只关注前一、两页的结果,所 以Precision @10,Precision @20对大规模搜索引擎非常有效,recall已经没有意义

    • F1 score:分类模型的评价 - 图5

      Precision 和Recall 调和平均,最好为1,最差为0