HanLP: Han Language Processing

HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

github地址:https://github.com/hankcs/HanLP

使用示例

1、引用

  1. <dependency>
  2. <groupId>com.hankcs</groupId>
  3. <artifactId>hanlp</artifactId>
  4. <version>portable-1.7.4</version>
  5. </dependency>

2、下载datahanlp.properties

这一步可以省略,如果没有data和配置文件,则使用最基础数据,会缺失一些准确性。

hanlp.properties 放在resources目录下即可,里面配置一下data的位置即可。

  1. root=D:/JavaProjects/HanLP/

比如data目录是/Users/hankcs/Documents/data,那么root=/Users/hankcs/Documents/

3、使用

  1. System.out.println(HanLP.segment("我新造一个词叫幻想乡你能识别并标注正确词性吗?"));
  2. System.out.println(NLPTokenizer.analyze("我新造一个词叫幻想乡你能识别并标注正确词性吗?").translateLabels());
  3. [我/r, 新/a, 造/v, 一个/mq, 词/n, 叫/v, 幻想/n, 乡/n, 你/r, 能/v, 识别/v, 并/c, 标注/vn, 正确/a, 词性/n, 吗/y, ?/w]
  4. 我/代词 新/副词 造/动词 一个/数词 词/名词 叫/动词 幻想乡/地名 你/代词 能/动词 识别/动词 并/连词 标注/动词 正确/形容词 词性/名词 吗/语气词 ?/标点符号

具体使用可以参考github讲解。