doc2vec原理及实践

    paragraph2vec介绍

    doc2vec 原理 - 图1

    总结doc2vec的过程, 主要有两步

    • 训练模型,在已知的训练数据中得到词向量WW, softmax的参数UU和bb,以及段落向量/句向量DD

    • 推断过程(inference stage),对于新的段落,得到其向量表达。具体地,在矩阵DD中添加更多的列,在固定WW,UU,bb的情况下,利用上述方法进行训练,使用梯度下降的方法得到新的D,从而得到新段落的向量表达