1.序列数据的简介
处理序列数据,和处理其他数据一样,关键都是要寻找一种有用的数据表示。
而寻找有用表示的前提,是需要将数据数值化、向量化(vectorize),例如:对深度学习模型而言,需要将数据转为数值张量进行输入。
1.1类别
序列数据包括:
循环神经网络(RNN);
一维卷积神经网络(1D convnet)。
- 算法在处理序列数据上的应用包括:
【文本】文档分类:比如识别文章的主题或书的作者;
【文本】序列到序列的学习:比如将英语翻译为法语;
【文本】情感分析:比如将电影评论划分为正面或负面;
【时间】时间序列对比:比如估测两支股票行情的相关程度;
【时间】时间序列预测:比如根据某地最近的天气数据预测未来天气。
2.文本序列
2.1基础概念
标记(token):文本分解后的单元,包括:单词、字符、n-gram。文本分解的过程叫分词(tokenization),例如:Keras中有分词工具Tokenizer。
n-gram:多个连续单词或字符的集合。
3.时间序列
4.序列数据处理技巧
来源: 1.《Python深度学习》肖莱,2018.