模型拟合(model fitting) :利用训练数据集(training set)对模型的普通参数进行拟合;
    模型选择(model selection):利用验证数据集(validation set)对模型的超参数进行调整,筛选出性能最好的模型;
    模型评价(model assessment):利用测试数据集(test set)来估计筛选出的模型在未知数据上的真实性能

    模型的复杂度越低,其偏差也就越高;模型的复杂度越高,其方差也就越高

    混淆矩阵(confusion matrix),也叫列联表(contingency table)来对不同的划分结果加以区分
    image.png
    查准率 P 也叫正例预测值(positive predictive value),表示的是真正例占所有预测结果为正例的样例的比值,也就是模型预测结果的准确程度
    image.png
    查全率 R 也叫真正例率(true positive rate, TPR),表示的是真正例占所有真实情况为正例的样例的比值,也就是模型对真实正例的判断能力
    image.png
    将查准率和查全率画在同一个平面直角坐标系内,得到的就是 P-R 曲线,它表示了模型可以同时达到的查准率和查全率。如果一个模型的 P-R 曲线能够完全包住另一个模型的曲线,就意味着前者全面地优于后者。
    ROC 曲线描述的是真正例率和假正例率之间的关系,也就是收益(真正例)与代价(假正例)之间的关系。ROC 曲线可以用来衡量习得模型的性能。模型的 ROC 曲线越靠近左上方,其性能就越好。和 P-R 曲线一样,如果一个模型的 ROC 曲线能够完全包住另一个模型的曲线,那么前者的性能就优于后者。