事实正确性综述

评估标准

无监督

基于三元组的

利用库抽取关系实体三元组,然后对比原文和摘要的三元组评估

基于文本蕴含

看看摘要是不是蕴含了原文(没大懂他在说啥)

基于QA

从摘要里构造问题,然后比较摘要和原文的回答

弱监督

句子级别

把摘要句子做变化,语义相似变化的是阳性例子,句子语义不相似变化得到的结果做负例
然后训练

实体级别

正例就是原reference里的实体,然后通过修改替换实体得到负例

词语级别

类似,就是把reference的摘要局部做修改,原reference就是正例,构造的是负例

加强策略

增强Encoder

在输入的编码器端,就加入事实的增强描述
其中又分为序列型和图网络型

语义蕴含

由于摘要的信息被蕴含于原文,所以搞了一个这样的encoder和decoder

APE

把生成结果作为草稿,然后后编辑
一个论文是把一个或者全部的实体都mask,然后从原文去选择一个span来填空,即只能改实体错误了
另一个用End2End,能够修改更多的错误
二者都是自动构造训练数据
问题就在于训练数据和测试数据的不一致,训练数据都是手动构造的

其他

  1. 过滤了不匹配的文档-摘要对
  2. 在解码过程中加上限制,达成限制则停止解码

未来展望

  1. 未提及事实信息错误的改进,前面的一些是矛盾型错误(摘要和原文矛盾,未提及则是没有提到的事实)
  2. 段落级别的评估
  3. 在条件文本生成下的事实一致性,就比如在看图写话,图片捕捉上的事实一致性