自注意力机制也是一个网络层,像cnn rnn 的一层一样
    对比复杂度
    64147aa5f9839676dbc61a8ba53b044.png

    总而言之,卷积神经网络和自注意力都拥有并行计算的优势, 而且自注意力的最大路径长度最短。 但是因为其计算复杂度是关于序列长度的二次方,所以在很长的序列中计算会非常慢。所以transformer,bert等对计算量的要求很大。

    位置编码
    用sin cos是为了方便相对位置编码
    15f7f63a2f3530f6f7fb2820ba92af3.png

    相对位置信息
    image.png

    b798956af1c72d3434cca8fee0e3c7c.png