注意力机制与Transformer - 《御鸦的机器学习知识库》

Embedding的概念
自注意力Self-Attention
multi-head attention
GNN-Graph Neural Network

Embedding的概念

把输入抽象为可以用来计算的数据结构（比如vector）
根据输入vector个数和输出label的个数，可以分别为 sequence labeling（1入1出）、n入1出、seqseq2seq（n入m出）

自注意力Self-Attention

1vector入1vector出，但输出的vector会考虑到整个seq的信息。
对于seq中的每个vector通过3个不同的矩阵可以生成3个新的中间vector：q（query），k（key），v
q与所有的k做内积得到attention score，之后对attention score与相应的v内积，之后softmax或relu得到输出

multi-head attention

多个（q，k，v）组就是多个attention头

GNN-Graph Neural Network

使用self-attention来处理图问题