一、独热编码
把数字索引对应为一个向量:
例如:字母“a”本来对应数字索引1,则变成变量是[0,1,0…..0],长度是字典vocab的长度
二、梯度裁剪
对于长度为T的序列,我们在迭代中计算这T个时间步上的梯度, 将会在反向传播过程中产生长度为O(T)的矩阵乘法链。 如 4.8节所述, 当T较大时,它可能导致数值不稳定, 例如可能导致梯度爆炸或梯度消失。 因此,循环神经网络模型往往需要额外的方式来支持稳定训练。
利用这种方式来裁剪,保证g的范围
三、具体步骤:
1,初始化模型参数
2,构建循环神经网络模型
3,预测结果(结果不会好,因为还没训练)
4,梯度剪裁
5,训练得到最终模型(并再次预测)