https://zhuanlan.zhihu.com/p/407343772

分词

指的是把句子中每个词给隔开,可以用tensorflow中自带的Tokenizer

文本数据清洗以及文本处理

在使用文本训练统计算法之前,你需要执行一些预处理任务,例如文本清理,语音标记,停用词删除,词干,词形去除等。

词嵌入

机器学习和深度学习等统计算法处理数字。要对文本应用统计算法,你需要将文本转换为数字。例如,你不能将两个词 apples 和 oranges加起来。你需要将文本转换为数字才能对单词应用数学运算。
将文本转换为数字的过程,主要以向量的形式,称为词嵌入。在本章中,你将看到一些最常见的词嵌入方法。以下是一些最常见的词嵌入方法:
1. 词袋:类似于编码,给每个词一个单独的编码
2. N-Gram
3. TFIDF 方法
4. Word2Vec

Word2Vec