理解

Embedding,一种降为手段,将高维稀疏响亮映射到低维空间上。
Word Embedding(词嵌入),即将文本转化为特征向量的方法。例如,语言模型(通过上下文,计算某个词语的出现的频率);One-Hot;词袋模型;词向量模型(典型的word2vec)等。

方法

One-Hot

特点:稀疏,且维度爆炸。文章中有N个不重复的词,文本长度为L,则需要构建L*N维的稀疏矩阵。

Bag of Words(词袋模型)

特点:不考虑语法与词的顺序,只考虑出现的频率。
拓展:需要理解的csr_matrix,一个例子如下。

  1. data =np.array([1,2,3,4,5,6])
  2. # 说明原矩阵有6个元素
  3. indices=np.array([0,2,2,0,1,2])
  4. # 说明六个元素分别出现在列,即第1列出现了1与4,第2列出现了5,第三列出现了2、3、6。
  5. indptr=np.array([0,2,3,6])
  6. # 说明第一行出现了2-0个数字,第二行出现了3-2个数字,第三行出现了6-3个数字。
  7. csr_matrix_0=csr_matrix((data, indices, indptr), shape=(3, 3)).toarray()
  8. # 表示被压缩的矩阵

转换来看,用颜色表示分别为[0,2,2,0,1,2]。因此,被压缩的矩阵为: :::tips 1 0 2
0 0 3
4 5 6 :::

N-gram