本节将介绍提高循环神经网络的性能和泛化能力的三种高级技巧。
我们将在温度预测问题中介绍这三个概念。在这个问题中,数据点时间序列来自建筑物屋顶安装的传感器,包括温度、气压、湿度等,你将要利用这些数据来预测最后一个数据点 24 小时之后的温度。这是一个相当有挑战性的问题,其中包含许多处理时间序列时经常遇到的困难。

我们将会介绍一下三个技巧:

  • 循环 dropout( recurrent dropout)。这是一种特殊的内置方法,在循环层中使用 dropout 来降低过拟合。
  • 堆叠循环层( stacking recurrent layers)。这会提高网络的表示能力(代价是更高的计算负荷)。
  • 双向循环层( bidirectional recurrent layer)。将相同的信息以不同的方式呈现给循环网络,可以提高精度并缓解遗忘问题。

1. 温度预测问题

除了语言处理,其他许多问题中也都用到了序列数据。在本节的所有例子中,我们将使用一个天气时间序列数据集,它由德国耶拿的马克思 • 普朗克生物地球化学研究所的气象站记录。 在这个数据集中,每 10 分钟记录 14 个不同的量(比如气温、气压、湿度、风向等),其中包含多年的记录。 本例仅使用 2009—2016 年的数据。这个数据集非常适合用来学习处理数值型时间序列。我们将会用这个数据集来构建模型,输入最近的一些数据(几天的数据点),可以预测 24 小时之后的气温。

下载数据集

  1. $ cd ~/Downloads
  2. $ mkdir jena_climate
  3. $ cd jena_climate
  4. $ wget https://s3.amazonaws.com/keras-datasets/jena_climate_2009_2016.csv.zip
  5. $ unzip jena_climate_2009_2016.csv.zip

观察数据

  1. import os
  2. data_dir = r'E:\ml-download\datasets\jena_climate_2009_2016_csv'
  3. fname = os.path.join(data_dir, 'jena_climate_2009_2016.csv')
  4. f = open(fname)
  5. data = f.read()
  6. f.close()
  7. lines = data.split('\n')
  8. header = lines[0].split(',')
  9. lines = lines[1:]
  10. print(header)
  11. print(len(lines))

从输出可以看出,共有 420 551 行数据(每行是一个时间步,记录了一个日期和 14 个与天气有关的值),还输出了下列表头:
[‘“Date Time”‘, ‘“p (mbar)”‘, ‘“T (degC)”‘, ‘“Tpot (K)”‘, ‘“Tdew (degC)”‘, ‘“rh (%)”‘, ‘“VPmax (mbar)”‘, ‘“VPact (mbar)”‘, ‘“VPdef (mbar)”‘, ‘“sh (g/kg)”‘, ‘“H2OC (mmol/mol)”‘, ‘“rho (g/m**3)”‘, ‘“wv (m/s)”‘, ‘“max. wv (m/s)”‘, ‘“wd (deg)”‘]

接下来,将 420 551 行数据转换成一个 Numpy 数组。

解析数据

  1. import numpy as np
  2. float_data = np.zeros((len(lines), len(header) - 1))
  3. for i, line in enumerate(lines):
  4. values = [float(x) for x in line.split(',')[1:]]
  5. float_data[i, :] = values

比如,温度随时间的变化如图 6-18 所示(单位:摄氏度)。在这张图中,你可以清楚地看到温度每年的周期性变化:

  1. """
  2. 绘制温度时间序列
  3. """
  4. from matplotlib import pyplot as plt
  5. temp = float_data[:, 1] # 温度(单位:摄氏度)
  6. plt.plot(range(len(temp)), temp)

image.png

再来绘制前 10 天温度数据的图像,因为每 10 分钟记录一个数据,所以每天有 144 个数据点。

  1. """
  2. 绘制前 10 天的温度时间序列
  3. """
  4. plt.plot(range(1440), temp[:1440])
  5. plt.show()

image.png

如果你想根据过去几个月的数据来预测下个月的平均温度,那么问题很简单,因为数据具有可靠的年度周期性。但从几天的数据来看,温度看起来更混乱一些。以天作为观察尺度,这个时间序列是可以预测的吗?我们来寻找这个问题的答案。

2. 准备数据

这个问题的确切表述如下:一个时间步是 **10 分钟,每 steps 个时间步采样一次数据,给定过去 lookback 个时间步之内的数据,能否预测 delay **个时间步之后的温度?用到的参数值如下:

  • lookback = 720:给定过去 5 天内的观测数据。
  • steps = 6:观测数据的采样频率是每小时一个数据点。
  • delay = 144:目标是未来 24 小时之后的数据。

开始之前,我们需要完成以下两件事:

  1. 将数据预处理为神经网络可以处理的格式。这很简单。数据已经是数值型的,所以不需要做向量化。但数据中的每个时间序列位于不同的范围(比如温度通道位于 -20 到 +30之间,但气压大约在 1000 毫巴上下)。你需要对每个时间序列分别做标准化,让它们在相似的范围内都取较小的值。
  2. 编写一个 Python 生成器,以当前的浮点数数组作为输入,并从最近的数据中生成数据批量,同时生成未来的目标温度。因为数据集中的样本是高度冗余的(对于第 N 个样本和第 N+1 个样本,大部分时间步都是相同的),所以显式地保存每个样本是一种浪费。相反,我们将使用原始数据即时生成样本。

数据预处理

预处理数据的方法是,将每个时间序列减去其平均值,然后除以其标准差。我们将使用前 200 000 个时间步作为训练数据,所以只对这部分数据计算平均值和标准差。

  1. """
  2. 数据标准化
  3. """
  4. mean = float_data[:200000].mean(axis=0)
  5. float_data -= mean
  6. std = float_data[:200000].std(axis=0)
  7. float_data /= std

编写数据生成器

下面的代码给出了将要用到的生成器。它生成了一个元组 (samples, targets),其中 samples 是输入数据的一个批量, targets 是对应的目标温度数组。
生成器的参数如下。

  • data:浮点数数据组成的原始数组,在数据预处理中将其标准化。
  • lookback:输入数据应该包括过去多少个时间步。
  • delay:目标应该在未来多少个时间步之后。
  • min_index 和 max_index: data 数组中的索引,用于界定需要抽取哪些时间步。这有助于保存一部分数据用于验证、另一部分用于测试。
  • shuffle:是打乱样本,还是按顺序抽取样本。
  • batch_size:每个批量的样本数。
  • step:数据采样的周期(单位:时间步)。我们将其设为 6,为的是每小时抽取一个数据点。
    1. """
    2. 生成时间序列样本及其目标的生成器
    3. """
    4. def generator(data, lookback, delay, min_index, max_index,
    5. shuffle=False, batch_size=128, step=6):
    6. if max_index is None:
    7. max_index = len(data) - delay - 1
    8. i = min_index + lookback
    9. while 1:
    10. ## 确定本次生成数据的索引
    11. if shuffle:
    12. rows = np.random.randint(
    13. min_index + lookback, max_index, size=batch_size) # 返回一个大小为 batch_size 的区间在 [min_index + lookback, max_index) 的随机值数组
    14. else:
    15. if i + batch_size >= max_index:
    16. i = min_index + lookback # 重置 i
    17. rows = np.arange(i, min(i + batch_size, max_index)) # 使用 min 函数防止越界
    18. i += len(rows) # i 向前走动
    19. ## 初始化本次所要生成的数据,初始为 0
    20. samples = np.zeros((len(rows), # 样本数
    21. lookback // step, # 周期数
    22. data.shape[-1])) # 特征数
    23. targets = np.zeros((len(rows),))
    24. ## 根据选定的索引填充数据
    25. for j, row in enumerate(rows): # rows[j] 可视为作为基准的那一天,即用这一天的前 lookback 个时间步的数据集去预测 delay 个时间步后的温度
    26. indices = range(rows[j] - lookback, rows[j], step) # 输入数据中包含过去的 lookback 个时间步
    27. samples[j] = data[indices]
    28. targets[j] = data[rows[j] + delay][1]
    29. ## 返回生成的数据
    30. yield samples, targets
    下面,我们使用这个抽象的 generator 函数来实例化三个生成器:一个用于训练,一个用于验证,还有一个用于测试。每个生成器分别读取原始数据的不同时间段:训练生成器读取前 200 000 个时间步,验证生成器读取随后的 100 000 个时间步,测试生成器读取剩下的时间步。 ```python lookback = 1440 step = 6 delay = 144 batch_size = 128

train_gen = generator(float_data, lookback=lookback, delay=delay, min_index=0, max_index=200000, shuffle=True, step=step, batch_size=batch_size) val_gen = generator(float_data, lookback=lookback, delay=delay, min_index=200001, max_index=300000, step=step, batch_size=batch_size) test_gen = generator(float_data, lookback=lookback, delay=delay, min_index=300001, max_index=None, step=step, batch_size=batch_size)

为了查看整个验证集,需要从 val_gen 中抽取多少次

val_steps = (300000 - 200001 - lookback) // batch_size

为了查看整个测试集,需要从 test_gen 中抽取多少次

test_steps = (len(float_data) - 300001 - lookback) // batch_size

  1. <a name="zMMdL"></a>
  2. ## 3. 一种基于常识的、非机器学习的基准方法
  3. 开始使用黑盒深度学习模型解决温度预测问题之前,我们先尝试一种基于常识的简单方法。它可以作为合理性检查,还可以建立一个基准,更高级的机器学习模型需要打败这个基准才能表现出其有效性。<br />**面对一个尚没有已知解决方案的新问题时,这种基于常识的基准方法很有用**。
  4. > 一个经典的例子就是不平衡的分类任务,其中某些类别比其他类别更常见。如果数据集中包含 90% 的类别 A 实例和 10% 的类别 B 实例,那么分类任务的一种基于常识的方法就是对新样本始终预测类别“A”。这种分类器的总体精度为 90%,因此任何基于学习的方法在精度高于 90% 时才能证明其有效性。有时候,这样基本的基准方法可能很难打败。
  5. 本例中,我们可以放心地假设,温度时间序列是连续的(明天的温度很可能接近今天的温度),并且具有每天的周期性变化。因此,一种基于常识的方法就是始终预测 24 小时后的温度等于现在的温度。我们使用平均绝对误差( MAE)指标来评估这种方法。<br />`np.mean(np.abs(preds - targets))`
  6. ```python
  7. def evaluate_naive_method():
  8. batch_maes = []
  9. for step in range(val_steps):
  10. samples, targets = next(val_gen)
  11. preds = samples[:, -1, 1]
  12. mae = np.mean(np.abs(preds - targets))
  13. batch_maes.append(mae)
  14. print(np.mean(batch_maes))
  15. evaluate_naive_method()

得到的 MAE 为 0.29。因为温度数据被标准化成均值为 0、标准差为 1,所以无法直接对这个值进行解释。它转化成温度的平均绝对误差为 0.29× temperature_std 摄氏度,即 2.57℃。

4. 一种基本的机器学习方法

在尝试机器学习方法之前,建立一个基于常识的基准方法是很有用的;同样,在开始研究复杂且计算代价很高的模型(比如 RNN)之前,尝试使用简单且计算代价低的机器学习模型也是很有用的,比如小型的密集连接网络。
这可以保证进一步增加问题的复杂度是合理的,并且会带来真正的好处。

下面给出了一个密集连接模型,首先将数据展平,然后通过两个 Dense 层并运行。注意,最后一个 Dense 层没有使用激活函数,这对于回归问题是很常见的。我们使用 MAE 作为损失。评估数据和评估指标都与常识方法完全相同,所以可以直接比较两种方法的结果。

  1. from keras.models import Sequential
  2. from keras import layers
  3. from keras.optimizers import RMSprop
  4. model = Sequential()
  5. model.add(layers.Flatten(input_shape=(lookback // step, float_data.shape[-1])))
  6. model.add(layers.Dense(32, activation='relu'))
  7. model.add(layers.Dense(1))
  8. model.compile(optimizer=RMSprop(), loss='mae')
  9. history = model.fit_generator(train_gen,
  10. steps_per_epoch=500,
  11. epochs=20,
  12. validation_data=val_gen,
  13. validation_steps=val_steps)

然后绘制结果:

  1. import matplotlib.pyplot as plt
  2. loss = history.history['loss']
  3. val_loss = history.history['val_loss']
  4. epochs = range(len(loss))
  5. plt.figure()
  6. plt.plot(epochs, loss, 'bo', label='Training loss')
  7. plt.plot(epochs, val_loss, 'b', label='Validation loss')
  8. plt.title('Training and validation loss')
  9. plt.legend()
  10. plt.show()

image.png
部分验证损失接近不包含学习的基准方法,但这个结果并不可靠。这也展示了首先建立这个基准方法的优点,事实证明,超越这个基准并不容易。我们的常识中包含了大量有价值的信息,而机器学习模型并不知道这些信息

你可能会问,如果从数据到目标之间存在一个简单且表现良好的模型(即基于常识的基准方法),那为什么我们训练的模型没有找到这个模型并进一步改进呢?原因在于,这个简单的解决方案并不是训练过程所要寻找的目标。我们在模型空间(即假设空间)中搜索解决方案,这个模型空间是具有我们所定义的架构的所有两层网络组成的空间。这些网络已经相当复杂了。如果你在一个复杂模型的空间中寻找解决方案,那么可能无法学到简单且性能良好的基准方法,虽然技术上来说它属于假设空间的一部分通常来说,这对机器学习是一个非常重要的限制:**如果学习算法没有被硬编码要求去寻找特定类型的简单模型,那么有时候参数学习是无法找到简单问题的简单解决方案的**。

5. 第一个循环网络基准

前一个方法首先将时间序列展平,这从输入数据中删除了时间的概念。我们来看一下数据本来的样子:它是一个序列,其中因果关系和顺序都很重要。我们将尝试一种循环序列处理模型,它应该特别适合这种序列数据,因为它利用了数据点的时间顺序,这与第一个方法不同。

我们将使用 Chung 等人在 2014 年开发的 GRU **层**,而不是上一节介绍的 LSTM 层。门控循环单元( GRU, gated recurrent unit)层的工作原理与 LSTM 相同。但它做了一些简化,因此运行的计算代价更低(虽然表示能力可能不如 LSTM)。机器学习中到处可以见到这种计算代价与表示能力之间的折中。

  1. from keras.models import Sequential
  2. from keras import layers
  3. from keras.optimizers import RMSprop
  4. model = Sequential()
  5. model.add(layers.GRU(32, input_shape=(None, float_data.shape[-1])))
  6. model.add(layers.Dense(1))
  7. model.compile(optimizer=RMSprop(), loss='mae')
  8. history = model.fit_generator(train_gen,
  9. steps_per_epoch=500,
  10. epochs=20,
  11. validation_data=val_gen,
  12. validation_steps=val_steps)

查看模型结果,效果好多了!远优于基于常识的基准方法。这证明了机器学习的价值,也证明了循环网络与序列展平的密集网络相比在这种任务上的优势:
image.png
新的验证 MAE 约为 0.265(在开始显著过拟合之前),反标准化转换成温度的平均绝对误差为 2.35℃。与最初的误差 2.57℃相比,这个结果确实有所提高,但可能仍有改进的空间。

6. 使用循环 dropout 来降低过拟合

从训练和验证曲线中可以明显看出,模型出现过拟合。我们已经学过降低过拟合的一种经典技术——dropout,即将某一层的输入单元随机设为 0,其目的是打破该层训练数据中的偶然相关性。 但在循环网络中如何正确地使用
dropout,这并不是一个简单的问题。
2015 年, 在关于贝叶斯深度学习的博士论文中, Yarin Gal 确定了在循环网络中使用 **dropout 的正确方法:对每个时间步应该使用相同的 dropout 掩码( dropoutmask,相同模式的舍弃单元),而不是让 dropout 掩码随着时间步的增加而随机变化。此外,为了对 GRULSTM 等循环层得到的表示做正则化,应该将不随时间变化的 dropout 掩码应用于层的内部循环激活(叫作循环 dropout 掩码)**。对每个时间步使用相同的 dropout 掩码,可以让网络沿着时间正确地传播其学习误差,而随时间随机变化的 dropout 掩码则会破坏这个误差信号,并且不利于学习过程。

Yarin Gal 使用 Keras 开展这项研究,并帮助将这种机制直接内置到 Keras 循环层中。 Keras的每个循环层都有两个与 dropout 相关的参数:一个是 dropout,它是一个浮点数,指定该层输入单元的 dropout 比率;另一个是 recurrent_dropout,指定循环单元的 dropout 比率。

我们向 GRU 层中添加 dropout 和循环 dropout,看一下这么做对过拟合的影响。因为使用 dropout 正则化的网络总是需要更长的时间才能完全收敛,所以网络训练轮次增加为原来的 2 倍。

  1. from keras.models import Sequential
  2. from keras import layers
  3. from keras.optimizers import RMSprop
  4. model = Sequential()
  5. model.add(layers.GRU(32,
  6. dropout=0.2,
  7. recurrent_dropout=0.2,
  8. input_shape=(None, float_data.shape[-1])))
  9. model.add(layers.Dense(1))
  10. model.compile(optimizer=RMSprop(), loss='mae')
  11. history = model.fit_generator(train_gen,
  12. steps_per_epoch=500,
  13. epochs=40,
  14. validation_data=val_gen,
  15. validation_steps=val_steps)

结果下图所示。成功!前 30 个轮次不再过拟合。不过,虽然评估分数更加稳定,但最佳分数并没有比之前低很多。
image.png

7. 循环层堆叠

模型不再过拟合,但似乎遇到了性能瓶颈,所以我们应该考虑增加网络容量。回想一下机器学习的通用工作流程:增加网络容量通常是一个好主意,直到过拟合变成主要的障碍(假设你已经采取基本步骤来降低过拟合,比如使用 dropout)。只要过拟合不是太严重,那么很可能是容量不足的问题

增加网络容量的通常做法是增加每层单元数或增加层数。循环层堆叠( **recurrent layer stacking**)是构建更加强大的循环网络的经典方法。例如,目前谷歌翻译算法就是 7 个大型 LSTM 层的堆叠 —— 这个架构很大。

在 Keras 中逐个堆叠循环层,所有中间层都应该返回完整的输出序列(一个 3D 张量),而不是只返回最后一个时间步的输出。 这可以通过指定 return_sequences=True 来实现。

  1. from keras.models import Sequential
  2. from keras import layers
  3. from keras.optimizers import RMSprop
  4. model = Sequential()
  5. model.add(layers.GRU(32,
  6. dropout=0.1,
  7. recurrent_dropout=0.5,
  8. return_sequences=True,
  9. input_shape=(None, float_data.shape[-1])))
  10. model.add(layers.GRU(64, activation='relu',
  11. dropout=0.1,
  12. recurrent_dropout=0.5))
  13. model.add(layers.Dense(1))
  14. model.compile(optimizer=RMSprop(), loss='mae')
  15. history = model.fit_generator(train_gen,
  16. steps_per_epoch=500,
  17. epochs=40,
  18. validation_data=val_gen,
  19. validation_steps=val_steps)

结果:
image.png
可以看到,添加一层的确对结果有所改进,但并不显著。我们可以得出两个结论:

  • 因为过拟合仍然不是很严重,所以可以放心地增大每层的大小,以进一步改进验证损失。但这么做的计算成本很高。
  • 添加一层后模型并没有显著改进,所以你可能发现,提高网络能力的回报在逐渐减小。

8. 使用双向 RNN

本节介绍的最后一种方法叫作双向 **RNNbidirectional RNN**)。双向 RNN 是一种常见的 RNN 变体,它在某些任务上的性能比普通 RNN 更好。它常用于自然语言处理,可谓深度学习对自然语言处理的瑞士军刀。

RNN 特别依赖于顺序或时间, RNN 按顺序处理输入序列的时间步,而打乱时间步或反转时间步会完全改变 RNN 从序列中提取的表示。正是由于这个原因,如果顺序对问题很重要(比如温度预测问题), RNN 的表现会很好。双向 RNN **利用了 RNN 的顺序敏感性:它包含两个普通 RNN, 比如你已经学过的 GRU 层和 LSTM 层,每个 RN 分别沿一个方向对输入序列进行处理(时间正序和时间逆序),然后将它们的表示合并在一起。通过沿这两个方向处理序列,双向RNN 能够捕捉到可能被单向 RNN 忽略的模式**。

值得注意的是,本节的 RNN 层都是按时间正序处理序列(更早的时间步在前),这可能是一个随意的决定。至少,至今我们还没有尝试质疑这个决定。如果 RNN 按时间逆序处理输入序列(更晚的时间步在前),能否表现得足够好呢?我们在实践中尝试一下这种方法,看一下会发生什么。你只需要编写一个数据生成器的变体,将输入序列沿着时间维度反转(即将最后一行代码替换为 yield samples[:, ::-1, :], targets)。本节第一个实验用到了一个单 GRU层的网络,我们训练一个与之相同的网络,得到的结果如下图所示:

image.png
逆序 GRU 的效果甚至比基于常识的基准方法还要差很多,这说明在本例中,按时间正序处理对成功解决问题很重要。这非常合理: GRU 层通常更善于记住最近的数据,而不是久远的数据,与更早的数据点相比,更靠后的天气数据点对问题自然具有更高的预测能力。
重要的是,对许多其他问题(包括自然语言)而言,情况并不是这样:直觉上来看,一个单词对理解句子的重要性通常并不取决于它在句子中的位置。

在机器学习中,如果一种数据表示不同但有用,那么总是值得加以利用,这种表示与其他表示的差异越大越好,它们提供了查看数据的全新角度,抓住了数据中被其他方法忽略的内容,因此可以提高模型在某个任务上的性能。这是集成( ensembling)方法背后的直觉。
双向 RNN 正是利用这个想法来提高正序 RNN 的性能。它从两个方向查看数据,从而得到更加丰富的表示,并捕捉到仅使用正序 RNN 时可能忽略的一些模式。

image.png

在 Keras 中将一个双向 RNN 实例化,我们需要使用 Bidirectional 层,它的第一个参数是一个循环层实例。Bidirectional 对这个循环层创建了第二个单独实例,然后使用一个实例按正序处理输入序列,另一个实例按逆序处理输入序列。

我们在 IMDB 情感分析任务上来试一下这种方法:

  1. """
  2. 训练并评估一个双向 LSTM
  3. """
  4. model = Sequential()
  5. model.add(layers.Embedding(max_features, 32))
  6. model.add(layers.Bidirectional(layers.LSTM(32)))
  7. model.add(layers.Dense(1, activation='sigmoid'))
  8. model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])
  9. history = model.fit(x_train, y_train, epochs=10, batch_size=128, validation_split=0.2)

这个模型的表现比上一节的普通 LSTM 略好,验证精度超过 89%。这个模型似乎也很快就开始过拟合,这并不令人惊讶,因为双向层的参数个数是正序 LSTM 的 2 倍。添加一些正则化,双向方法在这个任务上可能会有很好的表现

接下来,我们尝试将相同的方法应用于温度预测任务:

  1. from keras.models import Sequential
  2. from keras import layers
  3. from keras.optimizers import RMSprop
  4. model = Sequential()
  5. model.add(layers.Bidirectional(
  6. layers.GRU(32), input_shape=(None, float_data.shape[-1])))
  7. model.add(layers.Dense(1))
  8. model.compile(optimizer=RMSprop(), loss='mae')
  9. history = model.fit_generator(train_gen,
  10. steps_per_epoch=500,
  11. epochs=40,
  12. validation_data=val_gen,
  13. validation_steps=val_steps)

这个模型的表现与普通 GRU 层差不多一样好。其原因很容易理解:所有的预测能力肯定都来自于正序的那一半网络,因为我们已经知道,逆序的那一半在这个任务上的表现非常糟糕(本例同样是因为,最近的数据比久远的数据更加重要)

更多尝试

为了提高温度预测问题的性能,你还可以尝试下面这些方法。

  • 在堆叠循环层中调节每层的单元个数。当前取值在很大程度上是任意选择的,因此可能不是最优的。
  • 调节 RMSprop 优化器的学习率。
  • 尝试使用 LSTM 层代替 GRU 层。
  • 在循环层上面尝试使用更大的密集连接回归器,即更大的 Dense 层或 Dense 层的堆叠。
  • 不要忘记最后在测试集上运行性能最佳的模型(即验证 MAE 最小的模型)。否则,你开发的网络架构将会对验证集过拟合。

正如前面所说,深度学习是一门艺术而不是科学。我们可以提供指导,对于给定问题哪些方法可能有用、哪些方法可能没用,但归根结底,每个问题都是独一无二的,你必须根据经验对不同的策略进行评估。目前没有任何理论能够提前准确地告诉你,应该怎么做才能最优地解决问题。你必须不断迭代。

小结

下面是你应该从本节中学到的要点。

  • 我们学过,遇到新问题时,最好首先为你选择的指标建立一个基于常识的基准。如果没有需要打败的基准,那么就无法分辨是否取得了真正的进步。
  • 在尝试计算代价较高的模型之前,先尝试一些简单的模型,以此证明增加计算代价是有意义的。有时简单模型就是你的最佳选择。
  • 如果时间顺序对数据很重要,那么循环网络是一种很适合的方法,与那些先将时间数据展平的模型相比,其性能要更好。
  • 想要在循环网络中使用 dropout,你应该使用一个不随时间变化的 dropout 掩码与循环dropout 掩码。这二者都内置于 Keras 的循环层中,所以你只需要使用循环层的 dropout 和 recurrent_dropout 参数即可。
  • 与单个 RNN 层相比,堆叠 RNN 的表示能力更加强大。但它的计算代价也更高,因此不一定总是需要。虽然它在机器翻译等复杂问题上很有效,但在较小、较简单的问题上可能不一定有用。
  • 双向 RNN 从两个方向查看一个序列,它对自然语言处理问题非常有用。但如果在序列数据中最近的数据比序列开头包含更多的信息,那么这种方法的效果就不明显。

有两个重要的概念我们这里没有详细介绍:循环注意( recurrent attention)和序列掩码( sequence masking)。这两个概念通常对自然语言处理特别有用。