54 循环神经网络 RNN57 长短期记忆网络(LSTM)65 注意力分数 54 循环神经网络 RNN 关于中间变量,前面叫潜变量latent,后面叫隐变量hinder,也可以都叫后者 自回归模型的输出X,需要X和H作为变量。而RNN的输出,只参考H,而H考虑了当前X和前H。 在平均交叉熵的基础上,加上一个指数函数,将交叉熵的数值差异拉大。同时表示,前K个可能的结果,k=1时把握最大,k为无穷时表示啥也不确定。当梯度大于theta时,令梯度等于theta 57 长短期记忆网络(LSTM) 65 注意力分数