概述

抽取式摘要生成

之前都是分类任务，20年开始有人从摘要级别来考虑了（说的就是MatchSum）

生成式摘要

BERT，seq2seq模型大胜利，以及提到了一些很成功的技术

AMR parsing
copy
coverage
smoothing
pre-training

近些年开始有人质疑ROUGE的评测到底能不能和人工评测的结果一致
以及现有的人工评测都是在几个方面（流畅性，事实）展开评测
作者用了8个error metrics

评测对象

作者对目前的主流模型进行了评测，其实基本这些模型都接触过了

Extractive

Lead-3
TextRank 2004
SummaRuNNer 2017
BertSumExt 2019

Abstractive
Seq2Seq with Attention 2015
Pointer-Generator 2017 （能够解决信息提取不准确，同时从原文和encoder结果生成）
Pointer-Generator-with-Coverage 2017 使用一个额外的覆盖向量作为额外的输入
Bottom-Up 2018 先抽取候选词，然后用生成式，被认为是两种的结合
BertSumExtAbs 2019
BART 2019 这个模型倒是没有遇到过，不过似乎也SOTA，融合了pretrain和自回归的decoder（原来的只会pretrain encoder）

作者提出了评测模型

PolyTope is an error-oriented fine-grained human evaluation method based on Multidimensional Quality Metric (MQM)

准确指标要求

Addition，摘要了无关和不相关信息
Omission 丢失关键信息
Inaccuracy instrinsic 错误表达原文
Inaccuracy Extrinsic 原文没说的，摘要里却说了
Positive-Negative Aspect 摘要的倾向主题完全相反

流畅指标要求

Duplication，不必要的重复了词语
Word Form
Word Order

结果评估

结果分析

神经网络VS非神经网络

Lead3这种Baseline很简单，但是很强，但是显然看到在Addition Error上很高，可以认为这种无监督模型在识别和移除冗余的实力较弱

抽取式VS生成式

除了巨猛的BART，抽取式模型普遍outperform生成式模型
抽取式模型的错误主要集中在addition, Omission, Duplication，对应的生成式犯的错就更多了（流畅性）
在Inacc Intrinsic and Extrinsic这一项上，抽取式模型暴打生成式（原文直接拷贝的句子）
在Addition和Omiision上抽取式摘要没有特别高（拷贝带来的丢失和附加）

抽取式内部对比

把BERTSUMExt和SummarRuNNer对比，BERT只在Duplication上有优势，可能是BERT带来的上下文建模优势

生成式内部对比

COPY机制有效的减少了Inacc-Intrinsic，这个是极度有效的，同时还减少了冗余的问题。但是这个减少是在word层面的，在句子层面的重复减少几乎为0。对于seq2seq模型，极度的依赖短期的已经解码的历史信息，对长期的历史信息的利用很不充分，copy机制复制概率加入词级别的概率。相对的在Addition Error上更高了，因为自回归的模型更加倾向于复制很长的一段

Coverage：为了减少重复问题，，减少了Duplication，Ommision，但是增加了Addtion和Inacc Intrinsic，coverage机制缺少推理能力，更加容易把一些没用的信息粘到摘要里（Coverage强制Attention value在encoder-decoder之间向右单调移动，打乱了原来的解码节奏）

混合型模型
混合型的模型ROUGE高，但是评测模型分数低：由于混合模型的特性Recall高，ROUGE吃香，但是连贯性等等的的问题还是存在

Pretrain
先前的实验说明了LSTM和Transformer之间其实没有很大的性能差异，之所以BERTSUM和BART能够成功是因为pretrain，同时这里也提到了一个新的名词“Leading bias”，也是之前由看到的，摘要多在前几句（lead3强的原因），导致了很多模型就只会选前几句，想要超过lead就要拜托这种依赖，在更广的范围选择。

其他有意思的

作者把Golden-summary也丢进去评分，并不是满分

原文和摘要之间存在等价，但是表达不同的部分
摘要利用了外部的信息，

自然语言处理

What Have We Achieved on Text Summarization?

概述