一、词向量模型
1.1 维基百科简体中文语料提取
参考:https://zhuanlan.zhihu.com/p/39960476
下载词料库
https://dumps.wikimedia.org/zhwiki/
wikiextractor抽取数据
https://github.com/attardi/wikiextractor
opencc下载
https://bintray.com/package/files/byvoid/opencc/OpenCC
1.2 训练word2vec模型
word2vec
python word2vec.py data\wiki_jian_zh_4_seg.txt data\wiki_zh_jian_text.model data\wiki_zh_jian_text.vector