设计思想
专注某一个领域,比如军事、经济、政府等,利用互联网上的数据。
- 首先训练一个专业领域与非专业其它领域的二分类器。
- 然后在对新的样本判断是否是该领域的
训练一个情感分类器,判断这个样本是该领域的正面信息还是负面信息。
新增说明4:将模型训练和模型生成应用分离,提炼一些测试用例。
新增 NGramClassierTrainer 用于基于 NGram 特征的分类器训练
增加模型训练配置类:ClassModelConfiguration
新增说明3:增加基于 TF-IDF(词向量) 特征的文本分类程序。
主程序:DfIdfClassifier.java
- 效果如下:
- CATEGORY nment others
- government 233 46
- others 110 390
- 准确度: 0.8
- 总共正确数 : 623
- 总数:779
新增说明2:增加基于 N-Gram(词向量) 特征的文本分类程序,目的是找出自己领域相关的文本,然后再从这个领域相关的文本中判断正负面。
https://gitee.com/gitclebeg/nlp-sentiment