1. 文本表示概述
文本表示,可以简单理解成使用计算机能识别和操作的方式表示文本信息。如:数值、向量等。如何把字符串转变成向量等方式就是文本表示需要解决的核心问题。
1.1 为什么要进行文本表示
- 根本原因是因为计算机不方便对文本字符串进行处理,文本的基本操作无法应对我们后面的操作。所以需要对文本进行数值化和向量化。
- 机器学习的需要,无论是传统的机器学习和热门的深度学习,第一步和最重要的第一步就是特征工程,特征工程的基本操作就是把数据转换成数值、向量这种方式。
- 好的文本表示对我们的算法有很大的提升作用 <===> 好的特征工程决定模型上限
2. 文本表示方法介绍与实现
2.1 基于粒度的文本表示
- 文本表示
- 句子表示
- 词表示
由上往下粒度更细,精度更高,但是选择哪种表示需要根据业务需求等多方面决定。
2.2 基于表示方法的文本分类
- one-hot表示(独热表示)
- 离散表示
- multi-hot表示
- 分布式表示
- 基于矩阵
- 基于降维的方法
- 基于聚类的方法
- 基于神经网络
- CBOW(word2vec)
- Skip-gram(word2vec)
- NNLM
- C&W
