说说翻译模型是怎么进行评价的?对话系统怎么评价的?

1 一种机器翻译的评价准则——Bleu

这篇文章介绍得很好,看一遍下来基本就能理解了,翻译模型一般使用 BLEU 指标进行评价,判断翻译的句子和提供参考的句子有多相似。
Step1. 每个生成句子(翻译结果),会跟提供的多个参考句子进行比较,比较 n-gram 的精确度。
Step2. 计算pn值,n-gram 的精确度。比如一个句子的长度为 18,那么就有17个 2-gram 语片。假设这17个 2-gram 中,有 10 个在参考句子中出现,那么 p2=10/17。有两点需要注意:1.参考句子中匹配过的片段,不能再被匹配;2.比如翻译句子中出现了 5 次 the 这个词,现在有3个参考句子,分别出现1/2/2次 the 这个值。那么 the 匹配正确的次数应该是 2 次,另外 3 次是错的。
由于可能取多个 n 值,一般来说会取 N = 4. 最后整合 p1, p2, p3, p4 作为最后的评价结果。
Step3. 计算BP值(Brevity Penalty,简洁度惩罚)。如果翻译的句子很短,那么上面(2)中的准确度很容易就取得很高的值。BP 值用来对翻译太短的结果进行惩罚。
翻译模型评价方法 - 图1

2 BLEU的优缺点有哪些?

优点很明显:方便、快速、结果有参考价值   
缺点也不少,主要有
(1)不考虑语言表达(语法)上的准确性;
(2)测评精度会受常用词的干扰;
(3)短译句的测评精度有时会较高;
(4)没有考虑同义词或相似表达的情况,可能会导致合理翻译被否定;

3 现在基于深度学习的对话系统常用的评价指标有哪些?

(1)检索类评价指标: Recall@k
(2)生成类评价指标:BLEU,ROUGE 和 METEOR。
(3)基于学习的评价指标:使用机器学习、神经网络学习一个评价指标,用来进行打分。
(4)人工评价。