https://blog.csdn.net/qq_41140449/article/details/123325471



在文字上的sequence to sequence的应用





Encoder


Encoder用的就是Self-attention

在transformer中加入了Residual的设计

这里的self-attention加入了residual connection和layer norm
经过residual connection和layer norm之后的输出才进入到Full Collection里面。



Decoder



如果把decoder中间的那一块遮起来,我们会发现encoder和decoder并没有太大的区别。

Masked Self-attention——产生b1的时候,只需要考虑a1
产生b2的时候只需要考虑a1和a2

在decoder中,是先有a1 才有a2 然后才有a3






