1. 文本表示概述

文本表示,可以简单理解成使用计算机能识别和操作的方式表示文本信息。如:数值、向量等。如何把字符串转变成向量等方式就是文本表示需要解决的核心问题。

1.1 为什么要进行文本表示

  1. 根本原因是因为计算机不方便对文本字符串进行处理,文本的基本操作无法应对我们后面的操作。所以需要对文本进行数值化和向量化。
  2. 机器学习的需要,无论是传统的机器学习和热门的深度学习,第一步和最重要的第一步就是特征工程,特征工程的基本操作就是把数据转换成数值、向量这种方式。
  3. 好的文本表示对我们的算法有很大的提升作用 <===> 好的特征工程决定模型上限

2. 文本表示方法介绍与实现

2.1 基于粒度的文本表示

  • 文本表示
  • 句子表示
  • 词表示

由上往下粒度更细,精度更高,但是选择哪种表示需要根据业务需求等多方面决定。

2.2 基于表示方法的文本分类

  • one-hot表示(独热表示)
  • 离散表示
  • multi-hot表示
  • 分布式表示
  • 基于矩阵
    • 基于降维的方法
    • 基于聚类的方法
  • 基于神经网络
    • CBOW(word2vec)
    • Skip-gram(word2vec)
    • NNLM
    • C&W

2.3 文本表示方法的介绍和实现