NLP基石—文本表示方法

浏览 157 扫码分享 2023-11-22 12:43:00

1. 文本表示概述
- 1.1 为什么要进行文本表示
2. 文本表示方法介绍与实现

1. 文本表示概述

文本表示，可以简单理解成使用计算机能识别和操作的方式表示文本信息。如：数值、向量等。如何把字符串转变成向量等方式就是文本表示需要解决的核心问题。

1.1 为什么要进行文本表示

根本原因是因为计算机不方便对文本字符串进行处理，文本的基本操作无法应对我们后面的操作。所以需要对文本进行数值化和向量化。
机器学习的需要，无论是传统的机器学习和热门的深度学习，第一步和最重要的第一步就是特征工程，特征工程的基本操作就是把数据转换成数值、向量这种方式。
好的文本表示对我们的算法有很大的提升作用 <===> 好的特征工程决定模型上限

2. 文本表示方法介绍与实现

2.1 基于粒度的文本表示

文本表示
句子表示
词表示

由上往下粒度更细，精度更高，但是选择哪种表示需要根据业务需求等多方面决定。

2.2 基于表示方法的文本分类

one-hot表示（独热表示）
离散表示
multi-hot表示
分布式表示
基于矩阵
- 基于降维的方法
- 基于聚类的方法
基于神经网络
- CBOW（word2vec）
- Skip-gram（word2vec）
- NNLM
- C&W

2.3 文本表示方法的介绍和实现

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录