5.4 自注意力和位置编码

浏览 87 扫码分享 2023-11-24 00:34:38

自注意力机制也是一个网络层，像cnn rnn 的一层一样
对比复杂度

总而言之，卷积神经网络和自注意力都拥有并行计算的优势，而且自注意力的最大路径长度最短。但是因为其计算复杂度是关于序列长度的二次方，所以在很长的序列中计算会非常慢。所以transformer，bert等对计算量的要求很大。

位置编码
用sin cos是为了方便相对位置编码

相对位置信息

若有收获，就点个赞吧

让时间为你证明