image.png
    image.png
    image.png

    • 核心在于:用了隐藏变量。没有对x建模,所有的信息都存在隐变量中,存入了时序信息。
    • 如果去掉了W(hh)*h(t-1),本质上就是一个MLP,反过来说,就是加上它才能使当前时刻能和历史时刻发生关系
    • 过程:
      1. - 输入“你”,更新当前的h(t),预测“好”
      2. - 输入“好”,更新当前的h(t+1),预测“,”
      3. - o(t)和x(t-1)是一 一匹配,当前的ot)是用来预测当前的x(t)的,也就是说,t时候的预测是要先于输入的
      4. - 做损失函数loss时,是o(t)和xt)的关系。

    image.png
    使用困惑度的好处:1)放大了平均交叉熵
    2)数值为k,说明下一个词可能在k个词里都有可能,因此效果更差
    image.png
    g:所有层的梯度,是一个向量
    相当于:如果长度太大,就把它拉回来,也就是投影。
    image.png
    image.png