有了Skip_Gram模型就想到了在中文文本上的应用,但是由于中文文本的复杂性(尤其是在断句和分词)
本次是考虑使用wiki_zn的数据集进行训练。
这个数据集是维基百科的中文版,有104万词条,1个G大的json文件,数据量很大
在实验前有以下想法
- 对于分词,在使用jieba之前可以考虑建立以wiki的title作为数据源的词典,强化分词效果,避免过度分词
- 在数据清洗上注意标点等无效信息
- 在Skip_Gram模型词典的取舍上,由于训练速度和内存大小的限制,词典不会太大,所以是考虑优先依据wiki的词条名,还有实际应用(如在哲学领域分析文本,可以先分词哲学文本,然后用TF-IDF处理得到关键词再进行词典建立。
- 还有就是在词典数据的取舍上建议除去不是中文的词,过短的词,停用词(仍在原文中保留,避免毁坏数据)等
- 可以考虑使用多线程加快训练