第五章深度神经网络的训练

当序列太长时，容易导致梯度消失参数更新只能铺捉到局部的依赖关系，没法再捕捉序列之间的长期关联或依赖关系
实际上，梯度消失是可以避免的，尽管替代⽅法并不是那么有效，同样会产⽣问题 —— 在前⾯的层中的梯度会变得⾮常⼤！这也叫做激增的梯度问题（exploding gradient problem）
更加⼀般地说，在深度神经⽹络中的梯度是不稳定的，在前⾯的层中或会消失，或会激增。这种不稳定性才是深度神经⽹络中基于梯度学习的根本问题。

第五章 深度神经网络的训练