Embedding的概念
把输入抽象为可以用来计算的数据结构(比如vector)
根据输入vector个数和输出label的个数,可以分别为 sequence labeling(1入1出)、n入1出、seqseq2seq(n入m出)
自注意力Self-Attention
1vector入1vector出,但输出的vector会考虑到整个seq的信息。
对于seq中的每个vector通过3个不同的矩阵可以生成3个新的中间vector:q(query),k(key),v
q与所有的k做内积得到attention score,之后对attention score与相应的v内积,之后softmax或relu得到输出
multi-head attention
GNN-Graph Neural Network
使用self-attention来处理图问题
