有了Skip_Gram模型就想到了在中文文本上的应用,但是由于中文文本的复杂性(尤其是在断句和分词)

    本次是考虑使用wiki_zn的数据集进行训练。
    这个数据集是维基百科的中文版,有104万词条,1个G大的json文件,数据量很大

    在实验前有以下想法

    1. 对于分词,在使用jieba之前可以考虑建立以wiki的title作为数据源的词典,强化分词效果,避免过度分词
    2. 在数据清洗上注意标点等无效信息
    3. 在Skip_Gram模型词典的取舍上,由于训练速度和内存大小的限制,词典不会太大,所以是考虑优先依据wiki的词条名,还有实际应用(如在哲学领域分析文本,可以先分词哲学文本,然后用TF-IDF处理得到关键词再进行词典建立。
    4. 还有就是在词典数据的取舍上建议除去不是中文的词,过短的词,停用词(仍在原文中保留,避免毁坏数据)等
    5. 可以考虑使用多线程加快训练