自注意力机制也是一个网络层,像cnn rnn 的一层一样对比复杂度 总而言之,卷积神经网络和自注意力都拥有并行计算的优势, 而且自注意力的最大路径长度最短。 但是因为其计算复杂度是关于序列长度的二次方,所以在很长的序列中计算会非常慢。所以transformer,bert等对计算量的要求很大。 位置编码用sin cos是为了方便相对位置编码 相对位置信息