21.11.27 BARTSCORE: Evaluating Generated Text as Text Generation 【NIPS2021】

浏览 507 扫码分享 2023-03-22 13:50:43

Insight & target problem
Solution
Highlight
Others

Insight & target problem

很多生成类型的任务需要评估
用Pretrain model来评估是很不错的
类似于BERTScore这种的，Pretrain和Eval的类型有一定的差距，PLM的优势没用上

Solution

分数就是生成概率

Faithful ：输入Document，生成Hypo的概率
Precision：输入Reference生成Hypo
Recall：输入Hypo生成Refer的概率
F1：上面二者的加权

变种

用基本的BART
用BART-CNN，在CNNDM上fine-tuing过的
用BART-CNN，在paraphrasing任务上再tuing
用BART + Prompt，在Decoder input prefix append

Highlight

Prompt主要帮助的是语义上的评估，但是对于事实一致性评估的帮助很小
对Extractive的方法区分效果比较差，对Abstractive的区分较好
提升生成系统和提高评估方法是同一的，有更好的生成模型就可以作为这里的Backbone

Others

一个很大的问题，按照这么评估不会有Bias吗，比如说BART-CNN，按照模型的视角，假如用BART-CNN也生成了一个摘要，那这个摘要是不是默认的分数就是最高？假如有一个更好的摘要只不过可能风格不同，可能分数就被低估了。

BART本身就偏Copy，类似于BERTScore对ROUGE是保底的，至少可以做到Token级别的匹配

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录