做很宽的时候很容易overfitting做深:每一层的时候得到一个非线性关系,多层的时候就能把这些非线性关系累积起来每一层的隐藏层都需要一个初始化的hidden-state第一个隐藏层:用到的是H(t-1),X(t)第i个隐藏层:用到的是H(t-1),第i-1个隐藏层的H(t)