论文精读 - RNN - 《机器学习》

https://blog.csdn.net/qq_39439006/article/details/121554808

RNN（Recurrent Neural Network）是一类用于处理序列数据的神经网络。首先我们要明确什么是序列数据，摘取百度百科词条：时间序列数据是指在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义，当然这里也可以不是时间，比如文字序列，但总归序列数据有一个特点——后面的数据跟前面的数据有关系。

RNN是神经网络的一种，类似的还有深度神经网络DNN，卷积神经网络CNN，生成对抗网络GAN，等等。RNN对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，利用了RNN的这种能力，使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等NLP领域的问题时有所突破。

举几个具有序列特性的例子：

拿人类的某句话来说，也就是人类的自然语言，是不是符合某个逻辑或规则的字词拼凑排列起来的，这就是符合序列特性。
语音，我们发出的声音，每一帧每一帧的衔接起来，才凑成了我们听到的话，这也具有序列特性。
股票，随着时间的推移，会产生具有顺序的一系列数字，这些数字也是具有序列特性。

二、为什么要发明RNN

我们先来看一个NLP很常见的问题，命名实体识别，举个例子，现在有两句话：

第一句话：I like eating apple！（我喜欢吃苹果！）

第二句话：The Apple is a great company！（苹果真是一家很棒的公司！）

现在的任务是要给apple打Label，我们都知道第一个apple是一种水果，第二个apple是苹果公司，假设我们现在有大量的已经标记好的数据以供训练模型，当我们使用全连接的神经网络时，我们做法是把apple这个单词的特征向量输入到我们的模型中（如下图），在输出结果时，让我们的label里，正确的label概率最大，来训练模型，但我们的语料库中，有的apple的label是水果，有的label是公司，这将导致，模型在训练的过程中，预测的准确程度，取决于训练集中哪个label多一些，这样的模型对于我们来说完全没有作用。问题就出在了我们没有结合上下文去训练模型，而是单独的在训练apple这个单词的label，这也是全连接神经网络模型所不能做到的，于是就有了我们的循环神经网络。

三、RNN基础知识

1、循环核介绍

循环核具有记忆力，通过不同时刻的参数共享，实现了对时间序列的信息提取

ht：记忆体内当前时刻存储的状态信息
xt：当前时刻输入特征
ht-1：记忆体上一时刻存储的状态信息
yt：当前时刻循环核的输出特征

2、循环核按时间步展开

按时间步展开，就是把循环核按照时间轴方向展开。每个时刻记忆体状态信息ht被刷新，记忆体周围的参数矩阵wxh、whh和why是固定不变的。要训练优化的就是这些参数矩阵。训练完成后，使用效果最好的参数矩阵，执行前向传播，输出预测结果。循环神经网络，就是借助循环核提取时间特征后，送入全连接网络，实现连续数据的预测。

3、记忆体

循环核按照时间步展开后，可以发现，循环核是由多个记忆体构成，记忆体是循环神经网络储存历史状态信息的载体，每个记忆体都可以设定相应的个数，这个个数决定了记忆体可以存储历史状态信息的能力，记忆体个数越多，训练效果越好，但是由于记忆体的个数决定了参数矩阵的维度，因此记忆体个数越多，需要训练的参数量就越多，所需要消耗的资源就越大，训练时间就越长，因此需酌情评估。图中的例子中记忆体的个数为3，这个记忆体的个数，决定了ht的维度，进一步决定了Wxh、Whh以及Why的维度。

对于记忆体，还有一种更好的理解方式，输入xt+记忆体ht+输出yt这一个结构其实对应的就是全连接神经网络，其中输入层就是输入xt，隐藏层就是记忆体，隐藏层神经元的个数即是记忆体的个数，输出层就是输出yt，具体图示如下：

图中的Wxh维度是3x4，Whh维度是4x4，Why维度是4x2。

机器学习

RNN

目录

一、什么是RNN

二、为什么要发明RNN

三、RNN基础知识

1、循环核介绍

2、循环核按时间步展开

3、记忆体