54 循环神经网络 RNN

image.pngimage.png

关于中间变量,前面叫潜变量latent,后面叫隐变量hinder,也可以都叫后者

自回归模型的输出X,需要X和H作为变量。
而RNN的输出,只参考H,而H考虑了当前X和前H。

image.png
在平均交叉熵的基础上,加上一个指数函数,将交叉熵的数值差异拉大。
同时表示,前K个可能的结果,k=1时把握最大,k为无穷时表示啥也不确定。
image.png
当梯度大于theta时,令梯度等于theta

57 长短期记忆网络(LSTM)

image.png

65 注意力分数

image.png
image.png
image.png
image.png