输入
A set of vectors (may change length)
输出
1.针对每个输入的vector,对应一个输出,称作Sequence labeling。比如pos tagging
2.对整个输入,对应一个整体输出。 如Sentiment Analysis
对比
1.与RNN相比,self attention能对输入并行处理,输入到输出从线性代数的角度看就是一系列矩阵乘法,而RNN只能对输入的sequence vectors逐一处理
2.与CNN相比,self attention相当于更灵活的CNN,CNN卷积核尺寸通常是固定的,如33,55等,而self attention中对应的部分是通过数据学习得来,更灵活。
