标准RNN（输出和输出一样长）

多对一RNN

只在最后输出

第一种方案，只在序列开始时输入

第二种方案，反复输入相同的输入

一个状态能存的信息有限，decoder训练一组混合参数，用这组参数混合encoder中的每一个隐藏状态
问题：输出序列的长度怎么决定，什么时候停？

每一步输出概率最大的值

结合语言模型综合打分

GRU单元(Gated Recurrent Unit)，门循环控制单元，解决记忆时间太短问题(梯度消失问题)

RNN, Seq2Seq, GRU, LSTM - 图7

LSTM，改成了三个门，更新门、遗忘门、输出门（GRU出现得更晚。GRU结构简单，更容易应用到大规模，LSTM更强大，但是更复杂）

RNN, Seq2Seq, GRU, LSTM - 图8

RNN, Seq2Seq, GRU, LSTM - 图9

BRNN

RNN, Seq2Seq, GRU, LSTM - 图10

深层RNN网络

RNN, Seq2Seq, GRU, LSTM - 图11