https://zhuanlan.zhihu.com/p/407343772

分词

指的是把句子中每个词给隔开，可以用tensorflow中自带的Tokenizer

文本数据清洗以及文本处理

在使用文本训练统计算法之前，你需要执行一些预处理任务，例如文本清理，语音标记，停用词删除，词干，词形去除等。

词嵌入

机器学习和深度学习等统计算法处理数字。要对文本应用统计算法，你需要将文本转换为数字。例如，你不能将两个词 apples 和 oranges加起来。你需要将文本转换为数字才能对单词应用数学运算。
将文本转换为数字的过程，主要以向量的形式，称为词嵌入。在本章中，你将看到一些最常见的词嵌入方法。以下是一些最常见的词嵌入方法：
1. 词袋：类似于编码，给每个词一个单独的编码
2. N-Gram
3. TFIDF 方法
4. Word2Vec

自然语言处理NLP

NLP步骤

分词

文本数据清洗以及文本处理

词嵌入

Word2Vec