长期以来,隐变量模型存在着长期信息保存和短期输入缺失的问题。
为什么?和GRU的效果类似:都是考虑要不要看上一步状态,要不要看当前输入状态
是什么,怎么做?
f75644d8b47637bb71651bf2874eef6.jpg
ae80eed085b16f8eec2a2d3cb5c095c.jpg

候选记忆单元:
image.png
记忆单元:
image.png
隐藏状态:
image.png
image.png

小结

  • 长短期记忆网络有三种类型的门:输入门、遗忘门和输出门。
  • 长短期记忆网络的隐藏层输出包括“隐状态”和“记忆元”。只有隐状态会传递到输出层,而记忆元完全属于内部信息。
  • 长短期记忆网络可以缓解梯度消失和梯度爆炸。