BLEU

BLEU,全称为Bilingual Evaluation Understudy(双语评估替换),是一种对生成语句进行评估的指标,用于比较候选文本翻译与参考翻译的 n-gram 重合程度
BLEU分数值范围是[0.0, 1.0]:如果两个句子完美匹配(perfect match),则BLEU取值为1.0;如果两个句子完美不匹配(perfect mismatch),,则BLEU取值为0.0。
image.png
上图的公式变量解析:

  • 2022-03-18-seq2seq评估指标 - 图2:一般 n-gram 种的 N 设置为 4;
  • 2022-03-18-seq2seq评估指标 - 图3:n-gram的精确率.
    • 1-gram精确率表示模型摘要忠于人工摘要的程度, 2-gram, 3-gram等等表示模型摘要的语义流畅程度.
  • 2022-03-18-seq2seq评估指标 - 图4:n-gram的权重, 一般设置为均匀权重, 即对于任意n, 都有Wn = 1/n.
  • 2022-03-18-seq2seq评估指标 - 图5:惩罚因子, 如果模型摘要的长度小于最短的参考摘要, 则BP < 1.

image.png
image.png

ROUGE

类似于 BLEU,是基于 n-gram 覆盖的算法,不同之处在于:

  • 没有简洁惩罚
  • 基于召回率 recall,BLEU 是基于准确率的
    • 可以说,准确率对于机器翻译来说是更重要的 (通过添加简洁惩罚来修正翻译过短),召回率对于摘要来说是更重要的 (假设你有一个最大长度限制),因为需要抓住重要的信息
    • 但是,通常使用 F1 (结合了准确率和召回率)
  • BLEU 是一个单一的数字,它是 2022-03-18-seq2seq评估指标 - 图8 的精度的组合
  • 每 n-gram 的 ROUGE 得分分别报告,常见有:

    • ROUGE-1:unigram单元匹配
    • ROUGE-2:bigram二元分词匹配
    • ROUGE-L:最长公共子序列匹配

      ROUGE-N

      ROUGE-N将BLEU的精确率优化为召回率。它的计算方式如下:
      image.png
      上图的公式变量解析:
  • 分母是统计在参考译文中 N-gram 的个数

  • 分子是统计参考译文与机器译文共有的 N-gram 个数

image.png
image.png

ROUGE-L

ROUGE-L采用的是评估模型输出和参考文本之间的最长公共子序列(LCS)。其计算公式如下:
2022-03-18-seq2seq评估指标 - 图12
上图的公式变量解析:

  • ROUGE-L 中的 L 指最长公共子序列2022-03-18-seq2seq评估指标 - 图13
  • 2022-03-18-seq2seq评估指标 - 图142022-03-18-seq2seq评估指标 - 图15分别表示「参考文本和生成文本」的长度
  • R 表示召回率,P 表示精确率,𝑭_𝑳𝑪𝑺 就是 ROUGE-L
  • 𝜷 用于调节对精确率和召回率的关注度

ROUGE-S

ROUGE-S 允许n-gram出现跳词(skip)。即在model和reference进行匹配时,不要求gram之间必须是连续的,可以“跳过”几个单词。
image.png
上图的公式变量解析:

  • 先统计共有2-gram的数量Skip-Bigram(2-gram不一定连续)
  • 然后分别计算Skip-Bigram在参考文本和生成文本的比重 R / P

2022-03-18-seq2seq评估指标 - 图17
ROUGE-S 图解

参考