Embedding（嵌入）

浏览 63 扫码分享 2023-11-21 13:06:38

理解
方法

理解

Embedding，一种降为手段，将高维稀疏响亮映射到低维空间上。
Word Embedding（词嵌入），即将文本转化为特征向量的方法。例如，语言模型（通过上下文，计算某个词语的出现的频率）；One-Hot；词袋模型；词向量模型（典型的word2vec）等。

方法

One-Hot

特点：稀疏，且维度爆炸。文章中有N个不重复的词，文本长度为L，则需要构建L*N维的稀疏矩阵。

Bag of Words（词袋模型）

特点：不考虑语法与词的顺序，只考虑出现的频率。
拓展：需要理解的csr_matrix，一个例子如下。

data =np.array([1,2,3,4,5,6])   
# 说明原矩阵有6个元素
indices=np.array([0,2,2,0,1,2])
# 说明六个元素分别出现在列，即第1列出现了1与4，第2列出现了5，第三列出现了2、3、6。
indptr=np.array([0,2,3,6]) 
# 说明第一行出现了2-0个数字，第二行出现了3-2个数字，第三行出现了6-3个数字。
csr_matrix_0=csr_matrix((data, indices, indptr), shape=(3, 3)).toarray()  
# 表示被压缩的矩阵

转换来看，用颜色表示分别为[0,2,2,0,1,2]。因此，被压缩的矩阵为： :::tips 1 0 2
0 0 3
4 5 6 :::

N-gram

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录