理解
Embedding,一种降为手段,将高维稀疏响亮映射到低维空间上。
Word Embedding(词嵌入),即将文本转化为特征向量的方法。例如,语言模型(通过上下文,计算某个词语的出现的频率);One-Hot;词袋模型;词向量模型(典型的word2vec)等。
方法
One-Hot
特点:稀疏,且维度爆炸。文章中有N个不重复的词,文本长度为L,则需要构建L*N维的稀疏矩阵。
Bag of Words(词袋模型)
特点:不考虑语法与词的顺序,只考虑出现的频率。
拓展:需要理解的csr_matrix,一个例子如下。
data =np.array([1,2,3,4,5,6])# 说明原矩阵有6个元素indices=np.array([0,2,2,0,1,2])# 说明六个元素分别出现在列,即第1列出现了1与4,第2列出现了5,第三列出现了2、3、6。indptr=np.array([0,2,3,6])# 说明第一行出现了2-0个数字,第二行出现了3-2个数字,第三行出现了6-3个数字。csr_matrix_0=csr_matrix((data, indices, indptr), shape=(3, 3)).toarray()# 表示被压缩的矩阵
转换来看,用颜色表示分别为[0,2,2,0,1,2]。因此,被压缩的矩阵为:
:::tips
1 0 2
0 0 3
4 5 6
:::
