评估标准
无监督
基于三元组的
基于文本蕴含
基于QA
从摘要里构造问题,然后比较摘要和原文的回答
弱监督
句子级别
把摘要句子做变化,语义相似变化的是阳性例子,句子语义不相似变化得到的结果做负例
然后训练
实体级别
正例就是原reference里的实体,然后通过修改替换实体得到负例
词语级别
类似,就是把reference的摘要局部做修改,原reference就是正例,构造的是负例
加强策略
增强Encoder
在输入的编码器端,就加入事实的增强描述
其中又分为序列型和图网络型
语义蕴含
由于摘要的信息被蕴含于原文,所以搞了一个这样的encoder和decoder
APE
把生成结果作为草稿,然后后编辑
一个论文是把一个或者全部的实体都mask,然后从原文去选择一个span来填空,即只能改实体错误了
另一个用End2End,能够修改更多的错误
二者都是自动构造训练数据
问题就在于训练数据和测试数据的不一致,训练数据都是手动构造的
其他
- 过滤了不匹配的文档-摘要对
- 在解码过程中加上限制,达成限制则停止解码
未来展望
- 未提及事实信息错误的改进,前面的一些是矛盾型错误(摘要和原文矛盾,未提及则是没有提到的事实)
- 段落级别的评估
- 在条件文本生成下的事实一致性,就比如在看图写话,图片捕捉上的事实一致性