67-68 自注意力、transformer

浏览 163 扫码分享 2023-03-28 07:31:23

架构
多头注意力
预测

子注意力机制，比较适合序列很长的数据，因为它可以无视宽度，对每一个词都有它的匹配。需要层层相连。

用sin cos可以更好的去关心词跟词之间的相对位置，相对位置的一个好处，在对一个长序列时，如果需要切断或者增加它，相对位置仍不会发生太大变化，

transformer:

架构

多头注意力

与自注意力是不同的，中间用很多全连接层连接

多头注意力数学形式

带掩码的

attenton它是不携带时间序列信息的，在编码时可以不考率信息全部暴露出来，
但是解码不行，解码需要把后面的信息mask掉，于是可以通过掩码来实现

基于位置的前馈网络（其实是全连接）、

层归一化（add norm)

信息传递

预测

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录