架构多头注意力多头注意力数学形式带掩码的基于位置的前馈网络(其实是全连接)、层归一化(add norm)信息传递预测 子注意力机制,比较适合序列很长的数据,因为它可以无视宽度,对每一个词都有它的匹配。需要层层相连。 用sin cos可以更好的去关心词跟词之间的相对位置,相对位置的一个好处,在对一个长序列时,如果需要切断或者增加它,相对位置仍不会发生太大变化, transformer: 架构 多头注意力与自注意力是不同的,中间用很多全连接层连接 多头注意力数学形式 带掩码的attenton它是不携带时间序列信息的, 在编码时可以不考率信息全部暴露出来,但是解码不行,解码需要把后面的信息mask掉,于是可以通过掩码来实现 基于位置的前馈网络(其实是全连接)、 层归一化(add norm) 信息传递 预测