1.序列数据的简介

处理序列数据,和处理其他数据一样,关键都是要寻找一种有用的数据表示。
而寻找有用表示的前提,是需要将数据数值化、向量化(vectorize),例如:对深度学习模型而言,需要将数据转为数值张量进行输入。

1.1类别

序列数据包括:

  • 文本序列(单词序列、字符序列等);
  • 时间序列;
  • 其他的序列数据。

    1.2算法及应用

  • 处理序列数据的两种深度学习算法包括:

循环神经网络(RNN);
一维卷积神经网络(1D convnet)

  • 算法在处理序列数据上的应用包括:

【文本】文档分类:比如识别文章的主题或书的作者;
【文本】序列到序列的学习:比如将英语翻译为法语;
【文本】情感分析:比如将电影评论划分为正面或负面;
【时间】时间序列对比:比如估测两支股票行情的相关程度;
【时间】时间序列预测:比如根据某地最近的天气数据预测未来天气。

2.文本序列

2.1基础概念

标记(token):文本分解后的单元,包括:单词、字符、n-gram。文本分解的过程叫分词(tokenization),例如:Keras中有分词工具Tokenizer
n-gram:多个连续单词或字符的集合。

3.时间序列

4.序列数据处理技巧

来源: 1.《Python深度学习》肖莱,2018.