大致的看了一下,这一篇论文是在讲推出一个新的评测模型
之所以看这篇论文是因为

  1. 评测主要的模型,某种意义上是一种综述
  2. 另一个方面是可以看看在他的评测指标,反过来其实就是提高的突破口(能够提高的方面)

概述

抽取式摘要生成

之前都是分类任务,20年开始有人从摘要级别来考虑了(说的就是MatchSum)

生成式摘要

BERT,seq2seq模型大胜利,以及提到了一些很成功的技术

  1. AMR parsing
  2. copy
  3. coverage
  4. smoothing
  5. pre-training

近些年开始有人质疑ROUGE的评测到底能不能和人工评测的结果一致
以及现有的人工评测都是在几个方面(流畅性,事实)展开评测
作者用了8个error metrics

评测对象

作者对目前的主流模型进行了评测,其实基本这些模型都接触过了

Extractive

  1. Lead-3
  2. TextRank 2004
  3. SummaRuNNer 2017
  4. BertSumExt 2019

    Abstractive

  5. Seq2Seq with Attention 2015

  6. Pointer-Generator 2017 (能够解决信息提取不准确,同时从原文和encoder结果生成)
  7. Pointer-Generator-with-Coverage 2017 使用一个额外的覆盖向量作为额外的输入
  8. Bottom-Up 2018 先抽取候选词,然后用生成式,被认为是两种的结合
  9. BertSumExtAbs 2019
  10. BART 2019 这个模型倒是没有遇到过,不过似乎也SOTA,融合了pretrain和自回归的decoder(原来的只会pretrain encoder)

作者提出了评测模型

PolyTope is an error-oriented fine-grained human evaluation method based on Multidimensional Quality Metric (MQM)

准确指标要求

  1. Addition,摘要了无关和不相关信息
  2. Omission 丢失关键信息
  3. Inaccuracy instrinsic 错误表达原文
  4. Inaccuracy Extrinsic 原文没说的,摘要里却说了
  5. Positive-Negative Aspect 摘要的倾向主题完全相反

流畅指标要求

  1. Duplication,不必要的重复了词语
  2. Word Form
  3. Word Order

结果评估

image.png

结果分析

神经网络VS非神经网络

Lead3这种Baseline很简单,但是很强,但是显然看到在Addition Error上很高,可以认为这种无监督模型在识别和移除冗余的实力较弱

抽取式VS生成式

除了巨猛的BART,抽取式模型普遍outperform生成式模型
抽取式模型的错误主要集中在addition, Omission, Duplication,对应的生成式犯的错就更多了(流畅性)
在Inacc Intrinsic and Extrinsic这一项上,抽取式模型暴打生成式(原文直接拷贝的句子)
在Addition和Omiision上抽取式摘要没有特别高(拷贝带来的丢失和附加)

抽取式内部对比

把BERTSUMExt和SummarRuNNer对比,BERT只在Duplication上有优势,可能是BERT带来的上下文建模优势

生成式内部对比

COPY机制有效的减少了Inacc-Intrinsic,这个是极度有效的,同时还减少了冗余的问题。但是这个减少是在word层面的,在句子层面的重复减少几乎为0。对于seq2seq模型,极度的依赖短期的已经解码的历史信息,对长期的历史信息的利用很不充分,copy机制复制概率加入词级别的概率。相对的在Addition Error上更高了,因为自回归的模型更加倾向于复制很长的一段

Coverage:为了减少重复问题,,减少了Duplication,Ommision,但是增加了Addtion和Inacc Intrinsic,coverage机制缺少推理能力,更加容易把一些没用的信息粘到摘要里(Coverage强制Attention value在encoder-decoder之间向右单调移动,打乱了原来的解码节奏)

混合型模型
混合型的模型ROUGE高,但是评测模型分数低:由于混合模型的特性Recall高,ROUGE吃香,但是连贯性等等的的问题还是存在

Pretrain
先前的实验说明了LSTM和Transformer之间其实没有很大的性能差异,之所以BERTSUM和BART能够成功是因为pretrain,同时这里也提到了一个新的名词“Leading bias”,也是之前由看到的,摘要多在前几句(lead3强的原因),导致了很多模型就只会选前几句,想要超过lead就要拜托这种依赖,在更广的范围选择。

其他有意思的

作者把Golden-summary也丢进去评分,并不是满分

  1. 原文和摘要之间存在等价,但是表达不同的部分
  2. 摘要利用了外部的信息,