Transformer的本质是一个 Encoder-Decoder结构。跑起来传统的CNN和RNN,每个 block 由Attention机制+前馈神经网络组成。编码器由 6 个编码 block 组成,解码器也有 6 个解码 block 组成。编码器的输出会作为解码器的输入。
    Transformer - 图1