Self Attention - 《李宏毅机器学习笔记》

输入
输出
对比
应用
课件
论文

输入

A set of vectors (may change length)

输出

1.针对每个输入的vector，对应一个输出，称作Sequence labeling。比如pos tagging
2.对整个输入，对应一个整体输出。如Sentiment Analysis

对比

1.与RNN相比，self attention能对输入并行处理，输入到输出从线性代数的角度看就是一系列矩阵乘法，而RNN只能对输入的sequence vectors逐一处理
2.与CNN相比，self attention相当于更灵活的CNN，CNN卷积核尺寸通常是固定的，如33，55等，而self attention中对应的部分是通过数据学习得来，更灵活。

应用

1.Transformer
2.Bert

课件

SelfAttentation.pptx

论文

NIPS-2017-attention-is-all-you-need-Paper.pdf