前言
在对NLU产品进行评估时,评估其识别出的slot能力是对其考察的最为重要的参考标准之一。其中对slot准确率和召回率的计算可有效的反映出其该项能力的优劣。
准确率,召回率与F1-Measure
准确率和召回率
准确率(Precision):又叫查准率,反映的是检索出的slot或信息中有多少比例是感兴趣的。(下文中以P进行代替)
召回率(Recall):又叫查全率,反映的是感兴趣的slot或信息中有多少被检索出来了。(下文中以R进行代替)
准确率和召回率是一对矛盾的度量。一般来说,准确率高时,召回率往往偏低;而召回率高时,准确率往往偏低。
分类结果混淆矩阵
准确率和召回率的计算需要引入分类结果混淆矩阵。
NLU产品筛查出的slot可以被归类为四种类别:真比例(True Positive, TP),假比例(False Positive, TP),真反例(True Negative, TN),假反例(False Negative, FN)。用表格表示便为以下表格。
表1 分类结果混淆矩阵
真实情况 | 预测结果 | |
---|---|---|
正例 | 反例 | |
正例 | TP(真正例) | FN(假反例) |
反例 | FP(假正例) | TN(真反例) |
准确率(P)的计算公式为:
召回率(R)的计算公式为:
F1-Measure
前面已经讲过,准确率(P)和召回率(R)这两个指标时相互矛盾的,而在对NLU产品进行评估的过程中又需要综合考虑两者。目前常见的方法时计算F-Measure,又叫F-Score.
F-Measure是P和R的加权调和平均
当参数a=1时,就是最常使用的F1了
F1综合了P和R的结果,当F1较高时,说明产品的质量便较高。