tags: [知识追踪, Performer]
categories: [知识追踪, Performer]


RETHINKING ATTENTION WITH PERFORMERS

ABSTRACT

我们介绍了Performers——Transformer体系结构,该体系结构可以以可证明的准确性估算常规(softmax)全等级关注变压器(full-rank-attention Transformers),但仅使用线性(而不是二次)空间和时间复杂度,而无需依赖于诸如稀疏性或低等级的先验条件。为了近似softmax注意内核,Performers使用一种新颖的通过正正交随机特征方法(Fast Attention Via positive Orthogonal Random features, FAVOR +)的快速注意方法,这对于可扩展内核方法可能是独立关注的。 FAVOR +还可以用于对softmax以外的可内核化注意力机制进行有效建模。这种表征能力对于在大型任务中首次准确地将Softmax与其他内核进行比较(常规Transformes所无法达到的)以及研究最优的注意力内核至关重要。Performers是与常规Transformers完全兼容的线性体系结构,并具有强大的理论保证:无偏或近乎无偏的注意力矩阵估计、一致收敛和较低的估计方差。我们对Performers进行了一系列丰富的测试,包括从像素预测到文本模型再到蛋白质序列建模。我们用其他经过检验的有效稀疏和密集注意力方法展示了竞争结果,展示了Performers利用的新的注意力学习范式的有效性。

1 I NTRODUCTION AND RELATED WORK