论文标题
    SummaRuNNer: A Recurrent Neural Network based Sequence Model for
    Extractive Summarization of Documents

    由于这一篇论文比较远古了,所以看的也不是很认真

    亮点概括

    1. 使用了oracle的方法,使得用于生成式摘要的人工标注摘要可以用于抽取式(先前可能需要人手动的去标注句子label,用作classification任务
    2. 使用了多种粒度表达文中信息,并把多维度的特征用作抽取预测,这就使得抽取任务的训练结果可视化了(如下图,最后的训练结果可以看到对各个的摘要特征维度的权重
    3. 使用了抽取式和生成式的两种训练方案,由于这个模型具有encoder结构,抽取式没有decoder
      1. 实际上生成式的训练方案也会推进抽取式的encoder拥有更好的性能表达原文信息
      2. 最后论文提到了抽取式的分数稍高一些,同时提出了生成式可以作为抽取式的pretrain,或者是直接提出一个jointly train的方式

    image.png
    image.png