李宏毅笔记 - Transformer - 《深度学习》

seq2seq含义
seq2seq应用
seq2seq实现

seq2seq含义

输入一个序列，机器输出另一个序列，长度由机器决定。

文本翻译：文本至文本；语音识别：语音至文本；语音合成：文本至语音；聊天机器人：语音至语音。

采用该模型训练时，不考虑背景音乐、杂讯、音标等其他干扰因素，俗称硬train一发。

seq2seq应用

大多数自然语言处理（NLP问题）可以通过seq2seq解决，但不见得是最佳的方法。
应用于文法剖析，下图中的小括号用来表示树状结构！（NP名词，ADJV形容词，VP动词）

应用于multi-label classification（多标签分类问题：同一个对象可以属于多个class）。

⚠️区分于multi-class classfication（多类别分类问题：从多个class中选出一个class）。

seq2seq实现

seq2seq由encoder（编码器）和decoder（解码器）组成，过程如图。这两部分可以使用RNN或transformer实现，seq2seq主要是为了解决输入和输出长度不确定的情况。

encoder：将输入（文字、语音、视频等）编码为单个向量，这个向量可以看成是全部输入的抽象表示。
decoder：接受encoder输出的向量，逐步解码，一次输出一个结果，每次输出会影响下一次的输出，开头加入表示开始解码，表示输出结束。

encoder

encoder就是通过多层block（模块），将输入转换成向量。每一个block又包括self-attention和fully connect等网络结构。

下图是单个block中的内部细节构成。是考虑所有输入向量后的输出向量，b是原来的输入向量，经过残差网络和标准化后，送到完全连接神经网络，再经过残差网络和标准化后得到输出。⚠️注意：这里的标准化是layer norm而不是batch norm。

batch normalization：对不同的example不同feature的同一个dimention去计算平均值和标准差。
layer normalization：对同一个example中同一个feature的不同dimention去计算平均值和标准差。

transformer的encoder，下图结合上图理解。

下图中的multi-head attention 就是self-attention的别称；BERT使用的网络结构和transformer encoder一样。

transformer的encoder的改进措施：改变layer norm的使用位置。

decoder的实现

decoder主要有两种：AT（autoregressive）与NAT（non-autoregressive）。

AT（autoregressive）

以语音辨识为例，通过一个one-hot vector作为启动向量，接受encoder输出的向量，经过解码器和softmax之后得到一个向量。再对比已知字体库，相似度最高的就是最后输出的字体。再把自己的输出当做下一个的输入。

decoder与encoder的区别：

encoder是采用self-attention，而decoder是采用masked self-attention。
decoder多一层self-attention，而且多出来的这层有两个输入来自encoder，一个输入来自decoder前面网络的输出。

self-attention和masked self-attention的区别：

self-attention中的b1、b2、b3、b4分别都接受a1，a2，a3，a4所有的资讯；
masked self-attention中的b1只接受a1的资讯，b2只接受a1、a2的资讯，b3只接受a1、a2、a3的资讯，b4接受a1，a2，a3，a4的资讯。所以在decoder里面使用masked self-attention的原因是一个接一个输入，输入了a1才会产生b1即a2，所以在计算b1的时候还没有a2、a3、a4。

在已知的字体库中加入一个结束的标志，这样才能使得解码过程结束。所以在decoder中包括启动向量和结束向量。

NAT（non-autoregressive）

AT只有一个启动向量，需要多个步骤才能完成解码；NAT有多个启动向量，只需要一个步骤就能完成解码。
我们不知道输出长度，那怎么确定NAT的输出长度，放多少个BOS呢？答：方法一是用其他的预测模型预测输出长度，方法二是放很多个BOS，输出很长的序列，在end之后的字体就忽略掉。
NAT是平行化的，输出长度可控，比AT更加稳定。
NAT的效果比AT差，因为multi-modality（多通道）。