原因:隐含层h不能太宽,太宽就会overfit。所以想让h更深。深度循环神经网络使用多个隐藏层来获得更多的非线性。一个具有LL个隐藏层的深度循环神经网络, 每个隐状态都连续地传递到当前层的下一个时间步和下一层的当前时间步。