- 分享主题:Transformer for Time-Series Forecasting
- 论文标题:Longformer: The Long-Document Transformer
- 论文链接:https://arxiv.org/pdf/2004.05150.pdf
- 分享人:唐共勇

1. Summary

【必写】,推荐使用 grammarly 检查语法问题,尽量参考论文 introduction 的写作方式。需要写出

  1. 这篇文章解决了什么问题?
  2. 作者使用了什么方法(不用太细节)来解决了这个问题?
  3. 你觉得你需要继续去研究哪些概念才会加深你对这篇文章的理解?

Longformer is a model that can process long text efficiently. It proposes self-attention with a linear relationship between Spatio-temporal complexity and text sequence length to ensure that the model uses lower Spatio-temporal complexity to model long documents. Traditional transformer-based models have some problems when dealing with long text because they all adopt the global attention mechanism, that is, each token has to interact with all other tokens, and the complexity is as high as O (n ^ 2) in both space and time. Longformer proposed in this paper improves the traditional self-attention mechanism of the transformer. Specifically, each token only performs local attention on the tokens near the fixed window size. Longformer adds global attention (global attention) to the original local attention for specific tasks. Longformer has achieved SOTA results in two character-level language modeling tasks.

2. 你对于论文的思考

需要写出你自己对于论文的思考,例如优缺点,你的takeaways

优点:
1. 复杂度低,将attention机制的复杂度降低到随内存线性增加。
2. 通用性强,可用于各类文档级的任务
3. 部署容易,作者在CUDA内核上直接实现了Longformer的attention pattern,并提供了开源代码
缺点:
1. Longformer只对内存进行了优化,在计算时间上与全局的attention计算速度基本持平

3. 其他

【可选】

本质就是稀疏自注意力机制
本文提出了三种新的attention机制来降低传统self-attention的复杂度,分别是滑窗机制、膨胀滑窗机制、融合全局信息的滑窗机制。
image.png
滑窗机制:对于每一个token,只对其附近的w个token计算attention计算复杂度与文本序列长度n成线性关系,为O(w*n)。作者认为,根据应用任务的不同可以对Transformer每一层施以不同的窗口大小w,对模型表示能力可能有潜在帮助。
膨胀滑窗机制:在对每一个进行token编码时,普通滑窗机制只能考虑到长度为w的上下文。作者进一步提出膨胀滑窗机制,在不增加计算负荷的前提下,拓宽模型“视场”。其做法借鉴了空洞卷积的思想。在滑动窗口中,被attend到的两个相邻token之间会存在大小为d的间隙。
融合全局信息的滑窗机制:它设定某些位置的token能够看见全部的token,同时其他的所有token也能看见这些位置的token,相当于是将这些位置的token”暴露”在最外面。这些位置的确定和具体的任务有关。例如对于分类任务,这个带有全局视角的token是”CLS”;对于QA任务,这些带有全局视角的token是Question对应的这些token