一.评价的意义
    通常,训练集上训练出来的算法可能是欠拟合或者是过拟合的,两者都不具有较好的泛化性能,我们需要对还需要对其进行交叉验证和测试。
    注意到这里并没有直接利用测试值测试所训练出来的模型,而是先做了交叉验证测试,
    二.常用的指标
    1.查准率:对于推荐系统来说,推荐的内容是用户想要看的内容比例越高越好
    2.查全率:对于医生来说,诊断出的阳性患者在全部阳性患者中的比例越高越好
    3.F1:对于查准率和查全率有同样的要求,无偏好,当F1较高时,说明实验方法比较有效
    4.Fbeta:对于医生来说,既要求查准率又要求查全率,此时更应该偏向查全率;对于垃圾邮件分类系统
    来说,既要求查准率又要求查全率,但更偏向于查准率。
    5.PR:正例和负例差不多或者完全聚焦与正例而不太关注负例,不同类别分布同分类器性能的影响
    5.AUC:正例和负例同样重要,或者正例和负例的比例随时间变化时,更注重与模型的整体,AUC越大,说明模型性能越好
    6.召回率:多少个正例被分为正例,recall=TP/(TP+TN)