制造生成式摘要的伪数据

    方法就是抽取式摘要的结果用paraphrase的模型重新在生成一遍,就是所谓的伪数据
    下面列举了一些方法
    image.png

    做法还是有点奇怪的
    之前有一些摘要生成算法是先抽取,然后再生成。这种方法和这个伪数据生成有什么区别?
    另外,抽取式摘要的ROUGE低是抽取导致了“写法”的不一致,还是说抽取式摘要确实遗漏了一些信息(因为包含了这些信息需要额外的多纳入句子,而这会导致冗余,生成式就不会有这个问题)