Word2Vec - Skip_Gram中文应用 - 《自然语言处理》

有了Skip_Gram模型就想到了在中文文本上的应用，但是由于中文文本的复杂性（尤其是在断句和分词）

本次是考虑使用wiki_zn的数据集进行训练。
这个数据集是维基百科的中文版，有104万词条，1个G大的json文件，数据量很大

在实验前有以下想法

对于分词，在使用jieba之前可以考虑建立以wiki的title作为数据源的词典，强化分词效果，避免过度分词
在数据清洗上注意标点等无效信息
在Skip_Gram模型词典的取舍上，由于训练速度和内存大小的限制，词典不会太大，所以是考虑优先依据wiki的词条名，还有实际应用（如在哲学领域分析文本，可以先分词哲学文本，然后用TF-IDF处理得到关键词再进行词典建立。
还有就是在词典数据的取舍上建议除去不是中文的词，过短的词，停用词（仍在原文中保留，避免毁坏数据）等
可以考虑使用多线程加快训练