小结长期以来,隐变量模型存在着长期信息保存和短期输入缺失的问题。为什么?和GRU的效果类似:都是考虑要不要看上一步状态,要不要看当前输入状态是什么,怎么做? 候选记忆单元:记忆单元:隐藏状态: 小结 长短期记忆网络有三种类型的门:输入门、遗忘门和输出门。长短期记忆网络的隐藏层输出包括“隐状态”和“记忆元”。只有隐状态会传递到输出层,而记忆元完全属于内部信息。长短期记忆网络可以缓解梯度消失和梯度爆炸。