设计思想

专注某一个领域,比如军事、经济、政府等,利用互联网上的数据。

  1. 首先训练一个专业领域与非专业其它领域的二分类器。
  2. 然后在对新的样本判断是否是该领域的
  3. 训练一个情感分类器,判断这个样本是该领域的正面信息还是负面信息。

    新增说明4:将模型训练和模型生成应用分离,提炼一些测试用例。

  4. 新增 NGramClassierTrainer 用于基于 NGram 特征的分类器训练

  5. 增加模型训练配置类:ClassModelConfiguration

    新增说明3:增加基于 TF-IDF(词向量) 特征的文本分类程序。

  6. 主程序:DfIdfClassifier.java

  7. 效果如下:
  • CATEGORY nment others
  • government 233 46
  • others 110 390
  • 准确度: 0.8
  • 总共正确数 : 623
  • 总数:779

    新增说明2:增加基于 N-Gram(词向量) 特征的文本分类程序,目的是找出自己领域相关的文本,然后再从这个领域相关的文本中判断正负面。

    https://gitee.com/gitclebeg/nlp-sentiment