HanLP: Han Language Processing
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
github地址:https://github.com/hankcs/HanLP
使用示例
1、引用
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.4</version>
</dependency>
2、下载data、hanlp.properties
这一步可以省略,如果没有data和配置文件,则使用最基础数据,会缺失一些准确性。
hanlp.properties 放在resources目录下即可,里面配置一下data的位置即可。
root=D:/JavaProjects/HanLP/
比如data目录是/Users/hankcs/Documents/data
,那么root=/Users/hankcs/Documents/
。
3、使用
System.out.println(HanLP.segment("我新造一个词叫幻想乡你能识别并标注正确词性吗?"));
System.out.println(NLPTokenizer.analyze("我新造一个词叫幻想乡你能识别并标注正确词性吗?").translateLabels());
[我/r, 新/a, 造/v, 一个/mq, 词/n, 叫/v, 幻想/n, 乡/n, 你/r, 能/v, 识别/v, 并/c, 标注/vn, 正确/a, 词性/n, 吗/y, ?/w]
我/代词 新/副词 造/动词 一个/数词 词/名词 叫/动词 幻想乡/地名 你/代词 能/动词 识别/动词 并/连词 标注/动词 正确/形容词 词性/名词 吗/语气词 ?/标点符号
具体使用可以参考github讲解。