Insight & target problem

提升Abstractive模型的事实一致性

Solution

强化学习方法来训练模型
一个是要求Reward,即要优化的指标,另外一个是要求输出足够稳定,不要过多的偏离参数

然后利用这个方法可以训练出很多的Expert,这些Expert可以倾向于各个方面,然后可以用模型融合的方法来实现进一步的上升。模型融合也包括直接融合参数,和融合输出概率

我个人理解的训练方法就是

  1. 用Pivot summary计算一个分数(举个例子,用reference计算DAE分数)
  2. 用当前贪心生成的一个摘要,计算分数
  3. 然后把分数差值乘到普通的MLE Loss上,相当于是放大了loss(假如生成达不到目标)
  4. 最后KLloss要求更新的大小不能够太大

image.png

对于训练数据也有讲究
一个使用reference作为训练数据,一个使用Expert生成的summary作为训练数据
前者经过filter之后可以获得一个比较干净的环境,对训练比较有利。后者是在前者不能够做到足够干净的时候提供一个数据的来源。

然后是论文对于外部错误的定义,外部错误是出现了原文里面没有的内容,对应的判断方法就是看一下摘要里面是不是出现了Document没有的实体,内部错误用的是DAE,一种Entailment的方法

Highlight

  1. 强化学习方法
  2. 过滤数据的决策
  3. KL loss的引入辅助训练
  4. 多种Expert融合模型

    Others