大致的记录一下这篇论文的内容
由于内容相对复杂,所以看的也不是完全明白,勉强看了一遍半

主要的亮点

  1. 使用了GNN+RNN的模型架构
  2. 在GNN上加上了命名实体指代链接语义结构联系
  3. GNN上加了一种“equal”边,利用长距离的句法信息
  4. 在代码这种结构化数据上训练(把预测sub-token作为一段代码的摘要)
  5. 同时最重要的是如上的贡献和当前NLP基于RNN的很多新技术正交(我的理解就是可以融合使用,并不冲突,各有各的亮点,黏在一起用更好)
  6. 其他一个亮点就是作者做了挺充分的消融实验,证明上面的几个优点的作用

其他:

  1. GNN的计算复杂度较高
  2. GNN难以捕捉长距离信息
  3. Model仍然受到摘要信息冗余的痛苦

读论文的时候根据一知半解画的模型图(原论文推出新模型同时没咋给图是我没想到的。。。)
image.png

数据和结果分析

  1. 在代码数据集上的效果不错,GNN本身带有的结构信息
  2. CNN/DM上感觉
    1. 产生的摘要还挺流畅
    2. 模型围绕着命名实体做摘要
    3. GNN的长距离联结edge一定程度上捕获全局信息虽然仍然收到摘要冗余信息困扰,但是从考虑信息覆盖中得到了收益

其他

  1. 这种对长文档的编码形式考虑迁移到MatchSum的encoder上
  2. GNN的结构特性使得引入非结构化的NL的句法和语义信息变得方便,可以考虑和他一样的加上命名实体和指代联结的边

    1. 同时在阅读MatchSum的时候,论文提到了Tri-gram移除的方法在一些科学文章数据集上的表现并不好(因为科学文章有大量重复出现的名词被当作冗余信息移除,或许就是这个GNN+NER可以解决的问题)

      Table 5 presents that although Trigram Blockingworks well on CNN/DM, it does not always maintaina stable improvement. Ngram Blocking haslittle effect on WikiHow and Multi-News, andit causes a large performance drop on PubMed.We think the reason is that Ngram Blocking cannotreally understand the semantics of sentencesor summaries, just restricts the presence of entitieswith many words to only once, which is obviouslynot suitable for the scientific domain where entitiesmay often appear multiple times.

  3. 2.继续考虑所谓的事件抽取能不能应用到GNN上,之前说的pretrain model方法和GNN也不冲突