机器学习评价 - 《机器学习学习笔记》

一.评价的意义
通常，训练集上训练出来的算法可能是欠拟合或者是过拟合的，两者都不具有较好的泛化性能，我们需要对还需要对其进行交叉验证和测试。
注意到这里并没有直接利用测试值测试所训练出来的模型，而是先做了交叉验证测试，
二.常用的指标
1.查准率：对于推荐系统来说，推荐的内容是用户想要看的内容比例越高越好
2.查全率：对于医生来说，诊断出的阳性患者在全部阳性患者中的比例越高越好
3.F1:对于查准率和查全率有同样的要求，无偏好，当F1较高时，说明实验方法比较有效
4.Fbeta:对于医生来说，既要求查准率又要求查全率，此时更应该偏向查全率；对于垃圾邮件分类系统
来说，既要求查准率又要求查全率，但更偏向于查准率。
5.PR:正例和负例差不多或者完全聚焦与正例而不太关注负例，不同类别分布同分类器性能的影响
5.AUC:正例和负例同样重要，或者正例和负例的比例随时间变化时，更注重与模型的整体,AUC越大，说明模型性能越好
6.召回率：多少个正例被分为正例，recall=TP/(TP+TN)