Insight & target problem

  1. 很多生成类型的任务需要评估
  2. 用Pretrain model来评估是很不错的
  3. 类似于BERTScore这种的,Pretrain和Eval的类型有一定的差距,PLM的优势没用上

Solution

分数就是生成概率
image.png

  1. Faithful : 输入Document,生成Hypo的概率
  2. Precision:输入Reference生成Hypo
  3. Recall:输入Hypo生成Refer的概率
  4. F1:上面二者的加权

image.png

变种

  1. 用基本的BART
  2. 用BART-CNN,在CNNDM上fine-tuing过的
  3. 用BART-CNN,在paraphrasing任务上再tuing
  4. 用BART + Prompt,在Decoder input prefix append

image.png

Highlight

  1. Prompt主要帮助的是语义上的评估,但是对于事实一致性评估的帮助很小
  2. 对Extractive的方法区分效果比较差,对Abstractive的区分较好
  3. 提升生成系统和提高评估方法是同一的,有更好的生成模型就可以作为这里的Backbone

Others

一个很大的问题,按照这么评估不会有Bias吗,比如说BART-CNN,按照模型的视角,假如用BART-CNN也生成了一个摘要,那这个摘要是不是默认的分数就是最高?假如有一个更好的摘要只不过可能风格不同,可能分数就被低估了。

BART本身就偏Copy,类似于BERTScore对ROUGE是保底的,至少可以做到Token级别的匹配