Word2Vec模型有两类CBOW和Skip-gram,CBOW模型训练速度快于Skip-gram,而Skip-gram训练精度高于CBOW。这是因为一次训练CBOW只预测一个样本,即更新一次,而Skip-gram预测多个,即更新多次。

word2vec的负采样使用一元分布作为采样函数进行采样,且使用Word2Vec - 图1作为幂律。该幂律可以提高流行度较低的词被采样到的概率。

参考文献

  1. 为什么Word2Vec训练中, 需要对负采样权重开3/4次幂?
  2. 一元高斯分布、多元高斯分布、高斯混合模型