参考:https://zhuanlan.zhihu.com/p/28054589

one-hot表示法:用一个位置是1,其余位置都是0的向量来表示一个单词,每个向量的维度都等于字典大小
语言模型——直接学习语料库,可用于ASR和机器翻译

标准RNN(输出和输出一样长)

image.png

多对一RNN

只在最后输出
image.png

一对多RNN

第一种方案,只在序列开始时输入
image.png

第二种方案,反复输入相同的输入
image.png

Encoder-Decoder (Seq2Seq,多对多RNN)

image.png

带有Attention的Encoder-Decoder

一个状态能存的信息有限,decoder训练一组混合参数,用这组参数混合encoder中的每一个隐藏状态
问题:输出序列的长度怎么决定,什么时候停?
image.png

Decoding

Greedy

每一步输出概率最大的值

Beam Search

结合语言模型综合打分

GRU

GRU单元(Gated Recurrent Unit),门循环控制单元,解决记忆时间太短问题(梯度消失问题)

RNN, Seq2Seq, GRU, LSTM - 图7

LSTM,改成了三个门,更新门、遗忘门、输出门(GRU出现得更晚。GRU结构简单,更容易应用到大规模,LSTM更强大,但是更复杂)

RNN, Seq2Seq, GRU, LSTM - 图8

RNN, Seq2Seq, GRU, LSTM - 图9

BRNN

RNN, Seq2Seq, GRU, LSTM - 图10

深层RNN网络

RNN, Seq2Seq, GRU, LSTM - 图11