1. 当序列太长时,容易导致 梯度消失 参数更新只能铺捉到局部的依赖关系,没法再捕捉序列之间的长期关联或依赖关系
    2. 实际上,梯度消失 是可以避免的,尽管替代⽅法并不是那么有效,同 样会产⽣问题 —— 在前⾯的层中的梯度会变得⾮常⼤!这也叫做激增的梯度问题(exploding gradient problem)
    3. 更加⼀般地说,在深度神经⽹络中的梯度是不稳定的,在前⾯的层中或会消失,或会激增。这种不稳定性才是深度神经⽹络中基于梯度 学习的根本问题。