HanLP分词 - 《田云的博客笔记》

使用示例

HanLP: Han Language Processing

HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

github地址：https://github.com/hankcs/HanLP

使用示例

1、引用

<dependency>
    <groupId>com.hankcs</groupId>
    <artifactId>hanlp</artifactId>
    <version>portable-1.7.4</version>
</dependency>

2、下载data、hanlp.properties

这一步可以省略，如果没有data和配置文件，则使用最基础数据，会缺失一些准确性。

hanlp.properties 放在resources目录下即可，里面配置一下data的位置即可。

root=D:/JavaProjects/HanLP/

比如data目录是/Users/hankcs/Documents/data，那么root=/Users/hankcs/Documents/ 。

3、使用

System.out.println(HanLP.segment("我新造一个词叫幻想乡你能识别并标注正确词性吗？"));
System.out.println(NLPTokenizer.analyze("我新造一个词叫幻想乡你能识别并标注正确词性吗？").translateLabels());
[我/r, 新/a, 造/v, 一个/mq, 词/n, 叫/v, 幻想/n, 乡/n, 你/r, 能/v, 识别/v, 并/c, 标注/vn, 正确/a, 词性/n, 吗/y, ？/w]
我/代词 新/副词 造/动词 一个/数词 词/名词 叫/动词 幻想乡/地名 你/代词 能/动词 识别/动词 并/连词 标注/动词 正确/形容词 词性/名词 吗/语气词 ？/标点符号

具体使用可以参考github讲解。