58 深层循环神经网络

浏览 419 扫码分享 2023-03-28 07:31:33

做很宽的时候很容易overfitting
做深：每一层的时候得到一个非线性关系，多层的时候就能把这些非线性关系累积起来

每一层的隐藏层都需要一个初始化的hidden-state

第一个隐藏层：用到的是H(t-1)，X(t)
第i个隐藏层：用到的是H(t-1)，第i-1个隐藏层的H(t)