评价分类器性能一般是准确率Accuracy，其定义是：对于给定的测试集，分类器正确分类的样本数与总样本数之比。
对于二分类问题其评价指标通常是精确率Precision和召回率Recall。
其实概念可能不太好区分，

精确率是针对预测结果而言的，表示预测为正的样本中有多少是真正的样本。
召回率是针对原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。
True Positives，表示实际为正例且被分类器判定为正例的样本数；
False Positives，表示实际为负例且被分类器判定为正例的样本数
True Negatives，表示实际为正例且被分类器判定为负例的样本数；
False Negatives，表示实际为负例但被分类器判定为负例的样本数；

一个小技巧，第一个字母表示划分正确与否， T 表示判定正确（判定正确）， F表示判定错误(False)；第二个字母表示分类器判定结果， P表示判定为正例， N表示判定为负例。
**

Accuracy

分类问题性能评估指标 - 图5
准确率有一个严重的缺陷，在正负样本不均衡的问题下，不能很好的反映模型的情况，比如预测人群患癌症的概率，100人预测全部健康，实际上只有一个人患有癌症，但是准确率依旧有99%，这是没有任何意义的。

Precision

精确率是针对预测结果而言的，表示预测为正的样本中有多少是真正的样本。
分类问题性能评估指标 - 图6

Recall

召回率是针对原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。
分类问题性能评估指标 - 图7

精确率高，意味着分类器要尽量在 “更有把握” 的情况下才将样本预测为正样本，这意味着精确率能够很好的体现模型对于负样本的区分能力，精确率越高，则模型对负样本区分能力越强。
召回率高，意味着分类器尽可能将有可能为正样本的样本预测为正样本，这意味着召回率能够很好的体现模型对于正样本的区分能力，召回率越高，则模型对正样本的区分能力越强。
从上面的分析可以看出，精确率与召回率是此消彼长的关系，如果分类器只把可能性大的样本预测为正样本，那么会漏掉很多可能性相对不大但依旧满足的正样本，从而导致召回率降低。

F1-Score

分类问题性能评估指标 - 图8 是精确率和召回率的调和均值，即
分类问题性能评估指标 - 图9

分类问题性能评估指标 - 图10
更一般的有分类问题性能评估指标 - 图11 :
分类问题性能评估指标 - 图12

分类问题性能评估指标 - 图13

参考：

分类问题的评估指标一览