门控是为了选择重要的 忘记不重要的
    是什么? 是通过重置门和更新门来进行对h选择性的重置和更新
    为什么?循环神经网络中计算梯度, 以及矩阵连续乘积可以导致梯度消失或梯度爆炸,通过选择性的重置和更新,可以让这种可能性变小,而且速度更快。
    怎么做?
    image.png
    候选隐状态:
    image.png 点圈代表哈达玛积:按元素乘
    隐状态:
    image.png
    最终:
    image.png
    极端情况1:Zt=1,则和H(t-1)一样
    极端情况2:Zt=0,Rt=1,则和普通rnn一样
    image.png