评价分类器性能一般是准确率Accuracy,其定义是:对于给定的测试集,分类器正确分类的样本数与总样本数之比。
对于二分类问题其评价指标通常是精确率Precision和召回率Recall。
其实概念可能不太好区分,

  • 精确率是针对预测结果而言的,表示预测为正的样本中有多少是真正的样本。
  • 召回率是针对原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。
  • 分类问题性能评估指标 - 图1True Positives, 表示实际为正例且被分类器判定为正例的样本数;
  • 分类问题性能评估指标 - 图2False Positives, 表示实际为负例且被分类器判定为正例的样本数
  • 分类问题性能评估指标 - 图3True Negatives, 表示实际为正例且被分类器判定为负例的样本数;
  • 分类问题性能评估指标 - 图4False Negatives, 表示实际为负例但被分类器判定为负例的样本数;

一个小技巧, 第一个字母表示划分正确与否, T 表示判定正确(判定正确), F表示判定错误(False); 第二个字母表示分类器判定结果, P表示判定为正例, N表示判定为负例。
**

Accuracy

分类问题性能评估指标 - 图5
准确率有一个严重的缺陷,在正负样本不均衡的问题下,不能很好的反映模型的情况,比如预测人群患癌症的概率,100人预测全部健康,实际上只有一个人患有癌症,但是准确率依旧有99%,这是没有任何意义的。

Precision

精确率是针对预测结果而言的,表示预测为正的样本中有多少是真正的样本。
分类问题性能评估指标 - 图6

Recall

召回率是针对原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。
分类问题性能评估指标 - 图7

精确率高,意味着分类器要尽量在 “更有把握” 的情况下才将样本预测为正样本, 这意味着精确率能够很好的体现模型对于负样本的区分能力,精确率越高,则模型对负样本区分能力越强。
召回率高,意味着分类器尽可能将有可能为正样本的样本预测为正样本,这意味着召回率能够很好的体现模型对于正样本的区分能力,召回率越高,则模型对正样本的区分能力越强。
从上面的分析可以看出,精确率与召回率是此消彼长的关系, 如果分类器只把可能性大的样本预测为正样本,那么会漏掉很多可能性相对不大但依旧满足的正样本,从而导致召回率降低。

F1-Score

分类问题性能评估指标 - 图8是精确率和召回率的调和均值,即
分类问题性能评估指标 - 图9

分类问题性能评估指标 - 图10
更一般的有分类问题性能评估指标 - 图11:
分类问题性能评估指标 - 图12

分类问题性能评估指标 - 图13

参考: