Insight & target problem

想要提高事实正确性就要有好的标准

  1. ROUGE这种只管overlap的不行
  2. BERTScore这种的也不大行
  3. 用QA的太麻烦了,各种模型,各种pipline
  4. 上述方法没有理解事实不一致的根本问题

事实不一致的原因在于预训练模型的干扰,比如说老是生成“绿叶”,那生成“红枫叶”的时候就错了
因此我们需要理解,到底在生成的时候,模型多少的依赖了预训练模型,多少依赖了原文?
从事实一致性的角度,我们必然是希望依赖原文越多,那么生成的就越对

Solution

一堆推导没看懂,跳过
总的来说就是,模型在生成的时候,依赖于两个东西,原文和预训练参数。我们要知道依赖了多少原文,只需要

  1. 正常的生成:依赖原文和PLM
  2. 屏蔽原文的生成:只依赖于PLM
  3. 二者比较则知道了多少的依赖于原文

具体做法:
Finetuing模型
用Spacy获得关键词(很多原文的词都是一些意义不大的词,没必要作为分析)
然后把用多种MASK策略屏蔽关键词信息
把处理和不处理的原文输入模型
取出关键词的概率,相减

Highlight

  1. 效果不错
  2. 这个思路让我想到了之前的很多论文,比如用DialogueGPT,标注的时候,认为PLM做的不好的(loss高的)是关键位置。以及TrainingDynamic里的,容易拟合的是一些copy的简单词汇。

Others