image.png
    做很宽的时候很容易overfitting
    做深:每一层的时候得到一个非线性关系,多层的时候就能把这些非线性关系累积起来
    image.png
    每一层的隐藏层都需要一个初始化的hidden-state
    image.png
    第一个隐藏层:用到的是H(t-1),X(t)
    第i个隐藏层:用到的是H(t-1),第i-1个隐藏层的H(t)
    image.png