前言

在对NLU产品进行评估时,评估其识别出的slot能力是对其考察的最为重要的参考标准之一。其中对slot准确率和召回率的计算可有效的反映出其该项能力的优劣。

准确率,召回率与F1-Measure

准确率和召回率

准确率(Precision):又叫查准率,反映的是检索出的slot或信息中有多少比例是感兴趣的。(下文中以P进行代替)
召回率(Recall):又叫查全率,反映的是感兴趣的slot或信息中有多少被检索出来了。(下文中以R进行代替)

准确率和召回率是一对矛盾的度量。一般来说,准确率高时,召回率往往偏低;而召回率高时,准确率往往偏低。

分类结果混淆矩阵

准确率和召回率的计算需要引入分类结果混淆矩阵。

NLU产品筛查出的slot可以被归类为四种类别:真比例(True Positive, TP),假比例(False Positive, TP),真反例(True Negative, TN),假反例(False Negative, FN)。用表格表示便为以下表格。

表1 分类结果混淆矩阵

真实情况 预测结果
正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)

准确率(P)的计算公式为:

NLU产品评判标准之准确率和召回率 - 图1

召回率(R)的计算公式为:

NLU产品评判标准之准确率和召回率 - 图2

F1-Measure

前面已经讲过,准确率(P)和召回率(R)这两个指标时相互矛盾的,而在对NLU产品进行评估的过程中又需要综合考虑两者。目前常见的方法时计算F-Measure,又叫F-Score.

F-Measure是P和R的加权调和平均

image.png

当参数a=1时,就是最常使用的F1了

image.png

F1综合了P和R的结果,当F1较高时,说明产品的质量便较高。