独热编码(one-hot/k-hot)

散列编码

词嵌入编码

词嵌入实际上是一种将各个单词在预定的向量空间中表示为实值向量的一类技术。
每个单词被映射成一个向量(初始随机化),并且这个向量可以通过神经网络的方式来学习更新。
词嵌入用密集的分布式向量来表示每个单词。这样做的好处在于与one-hot这样的编码对比,使用词嵌入表示的单词向量往往只有几十或者几百个维度。极大的减少 了计算和储存量。