layout: posttitle: PyHanLP工具包使用指南
subtitle: 安装和如何使用
date: 2019-11-13
author: NSX
header-img: img/post-bg-ios9-web.jpg
catalog: true
tags:
- 技术
- 教程
- Python
PyHanLP 使用指南
Hanlp简介
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。
HanLP主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换、简繁转换等等。
Github地址:https://github.com/hankcs/HanLP
官网地址:http://hanlp.linrunsoft.com/
PyHanLP安装
pip install pyhanlp
from pyhanlp import *
# 首次编译运行时,HanLP会自动构建词典缓存,请稍候……
Using local c:\users\yuquanle\anaconda3\envs\nlpcoure\lib\site-packages\pyhanlp\static\data-for-1.7.0.zip, ignore http://hanlp.linrunsoft.com/release/data-for-1.7.0.zip
Extracting data.zip...
如果下载速度只有几十K,可以尝试这个链接手动下载:http://download.hanlp.com/
可能会报错: ValueError: 配置错误: 数据包 …/Python36/lib/site-packages/pyhanlp/static\data 不存在,请修改配置文件中的root
解决方案:
- 建议提前准备好data、jar与配置文件,并使用环境变量进行配置
解压之后,放入pyhanlp
安装目录的static
目录中:pyhanlp
├── main.py
└── static
├── data
├── data-for-1.7.5.zip
├── hanlp-1.7.5.jar
├── hanlp.properties
└── hanlp-1.7.5-release.zip
- 保证 hanlp.properties 中的 root 是指向正确的data路径。 比如:
export HANLP_JAR_PATH=/hanlp/hanlp-1.6.0.jar
export HANLP_STATIC_ROOT=/hanlp
tree $HANLP_STATIC_ROOT -L 2
ll $HANLP_JAR_PATH
cat $HANLP_STATIC_ROOT/hanlp.properties | grep root
PS: windows可忽略
使用指南
1.标准分词和词性标注
from pyhanlp import *
print(HanLP.segment('欢迎在Python中调用HanLP的API'))
for term in HanLP.segment('欢迎在Python中调用HanLP的API'):
print('{}\t{}'.format(term.word, term.nature)) # 获取单词与词性
> [欢迎/v, 在/p, Python/nx, 中/f, 调用/v, HanLP/nx, 的/ude1, API/nx]
说明
- HanLP中有一系列“开箱即用”的静态分词器,以Tokenizer结尾,在接下来的例子中会继续介绍。
- HanLP.segment其实是对StandardTokenizer.segmen的包装。
- 分词结果包含词性,每个词性的意思请查阅《HanLP词性标注集》。
算法详解
2.依存句法分析
它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。
s_dep = HanLP.parseDependency('欢迎在Python中调用HanLP的APIs')
print(s_dep)
1 欢迎 欢迎 v v _ 0 核心关系 _ _
2 在 在 p p _ 5 状中结构 _ _
3 Python Python ws nx _ 4 定中关系 _ _
4 中 中 nd f _ 2 介宾关系 _ _
5 调用 调用 v v _ 8 定中关系 _ _
6 HanLP HanLP ws nx _ 5 动宾关系 _ _
7 的 的 u u _ 5 右附加关系 _ _
8 API API ws nx _ 1 动宾关系 _ _
# 可以直接拿到数组,任意顺序或逆序遍历
word_array = sentence.getWordArray()
for word in word_array:
print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))
print()
算法详解
- HanLP在线句法分析并可视化:http://hanlp.hankcs.com/
- 南京大学开发的Dependency Viewer的Windows客户端工具
- 下载:DependencyViewer.exe.zip
- 加载CoNLL格式的txt文件
- web端推荐conllu.js,斯坦福大学也在用这个
Tag | 关系 | Description | Example |
---|---|---|---|
SBV | 主谓关系 | subject-verb | 我送她一束花 (我 <– 送) |
VOB | 动宾关系 | 直接宾语,verb-object | 我送她一束花 (送 –> 花) |
IOB | 间宾关系 | 间接宾语,indirect-object | 我送她一束花 (送 –> 她) |
FOB | 前置宾语 | 前置宾语,fronting-object | 他什么书都读 (书 <– 读) |
DBL | 兼语 | double | 他请我吃饭 (请 –> 我) |
ATT | 定中关系 | attribute | 红苹果 (红 <– 苹果) |
ADV | 状中结构 | adverbial | 非常美丽 (非常 <– 美丽) |
CMP | 动补结构 | complement | 做完了作业 (做 –> 完) |
COO | 并列关系 | coordinate | 大山和大海 (大山 –> 大海) |
POB | 介宾关系 | preposition-object | 在贸易区内 (在 –> 内) |
LAD | 左附加关系 | left adjunct | 大山和大海 (和 <– 大海) |
RAD | 右附加关系 | right adjunct | 孩子们 (孩子 –> 们) |
IS | 独立结构 | independent structure | 两个单句在结构上彼此独立 |
WP | 标点符号 | punctuation | 标点符号 |
HED | 核心关系 | head | 指整个句子的核心 |
3.关键词提取
document = u'''
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,
所以它与语言学的研究有着密切的联系,但又有重要的区别。
自然语言处理并不是一般地研究自然语言,
而在于研制能有效地实现自然语言通信的计算机系统,
特别是其中的软件系统。因而它是计算机科学的一部分。
'''
doc_keyword = HanLP.extractKeyword(document, 3)
for word in doc_keyword:
print(word)
研究
自然语言
自然语言处理
4.摘要抽取
doc_keysentence = HanLP.extractSummary(document, 3)
for key_sentence in doc_keysentence:
print(key_sentence)
自然语言处理并不是一般地研究自然语言
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法
5.1感知机词法分析器
PerceptronLexicalAnalyzer = JClass('com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer')
analyzer = PerceptronLexicalAnalyzer()
print(analyzer.analyze("上海华安工业(集团)公司董事长谭旭光和秘书胡花蕊来到美国纽约现代艺术博物馆参观"))
> [上海/ns 华安/nz 工业/n (/w 集团/n )/w 公司/n]/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来到/v [美国纽约/ns 现代/ntc 艺术/n 博物馆/n]/ns 参观/v
说明
- NLP分词NLPTokenizer会执行词性标注和命名实体识别,由结构化感知机序列标注框架支撑。
- 默认模型训练自9970万字的大型综合语料库,是已知范围内全世界最大的中文分词语料库。语料库规模决定实际效果,面向生产环境的语料库应当在千万字量级。用户可以在自己的语料上训练新模型以适应新领域、识别新的命名实体。
5.2 CRF 词法分析器
CRFLexicalAnalyzer = JClass("com.hankcs.hanlp.model.crf.CRFLexicalAnalyzer")
analyzer = CRFLexicalAnalyzer()
print(analyzer.analyze("上海华安工业(集团)公司董事长谭旭光和秘书胡花蕊来到美国纽约现代艺术博物馆参观"))
> [上海/ns 华安/nz 工业/n (/w 集团/n )/w 公司/n]/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来到/v [美国纽约/ns 现代/ntc 艺术/n 博物馆/n]/ns 参观/v
说明
- 调用更底层的API需要参考Java语法用JClass引入更深的类路径。以感知机词法分析器为例,CRF分词的类位于包名com.hankcs.hanlp.model.crf.CRFLexicalAnalyzer下,先用JClass得到类,然后就可以调用了
- CRF对新词有很好的识别能力,但是开销较大。
算法详解
5.3 极速词典分词
SpeedTokenizer = JClass("com.hankcs.hanlp.tokenizer.SpeedTokenizer")
text = "江西鄱阳湖干枯,中国最大淡水湖变成大草原"
JClass("com.hankcs.hanlp.HanLP$Config").ShowTermNature = False
print(SpeedTokenizer.segment(text))
说明
- 调用更底层的API需要参考Java语法用JClass引入更深的类路径。以感知机词法分析器为例,极速字典分词的类位于包名com.hankcs.hanlp.tokenizer.SpeedTokenizer下,先用JClass得到类,然后就可以调用了
- 极速分词是词典最长分词,速度极其快,精度一般。
- 在i7-6700K上跑出了4500万字每秒的速度。
算法详解
6.中国人名识别
NER = HanLP.newSegment().enableNameRecognize(True)
p_name = NER.seg('王国强、高峰、汪洋、张朝阳光着头、韩寒、小四')
print(p_name)
> [王国强/nr, 、/w, 高峰/n, 、/w, 汪洋/n, 、/w, 张朝阳/nr, 光着头/l, 、/w, 韩寒/nr, 、/w, 小/a, 四/
说明
- 目前分词器基本上都默认开启了中国人名识别,比如HanLP.segment()接口中使用的分词器等等,用户不必手动开启;上面的代码只是为了强调。
- 有一定的误命中率,比如误命中关键年,则可以通过在data/dictionary/person/nr.txt加入一条关键年 A 1来排除关键年作为人名的可能性,也可以将关键年作为新词登记到自定义词典中。
- 建议NLP用户使用感知机或CRF词法分析器,精度更高。
算法详解
7.音译人名识别
sentence = '微软的比尔盖茨、Facebook的扎克伯格跟桑德博格、亚马逊的贝索斯、苹果的库克,这些硅谷的科技人'
person_ner = HanLP.newSegment().enableTranslatedNameRecognize(True)
p_name = person_ner.seg(sentence)
print(p_name)
> [微软/ntc, 的/ude1, 比尔盖茨/nrf, 、/w, Facebook/nx, 的/ude1, 扎克伯格/nrf, 跟/p, 桑德博格/nrf, 、/w,
说明
- 目前分词器基本上都默认开启了音译人名识别,用户不必手动开启
算法详解
8.短语提取
phraseList = HanLP.extractPhrase(document, 3)
print(phraseList)
[计算机科学, 中的重要, 之间自然语言]
9.1 汉字转拼音
s = '重载不是重任'
pinyinList = HanLP.convertToPinyinList(s)
for pinyin in pinyinList:
print(pinyin.getPinyinWithoutTone(),pinyin.getTone(), pinyin, pinyin.getPinyinWithToneMark())
chong 2 chong2 chóng
zai 3 zai3 zǎi
bu 2 bu2 bú
shi 4 shi4 shì
zhong 4 zhong4 zhòng
ren 4 ren4 rèn
9.2 拼音转汉字
def demo_pinyin_to_chinese():
""" HanLP中的数据结构和接口是灵活的,组合这些接口,可以自己创造新功能
[renmenrenweiyalujiangbujian/null, lvse/[滤色, 绿色]]
"""
AhoCorasickDoubleArrayTrie = JClass(
"com.hankcs.hanlp.collection.AhoCorasick.AhoCorasickDoubleArrayTrie")
StringDictionary = JClass(
"com.hankcs.hanlp.corpus.dictionary.StringDictionary")
CommonAhoCorasickDoubleArrayTrieSegment = JClass(
"com.hankcs.hanlp.seg.Other.CommonAhoCorasickDoubleArrayTrieSegment")
CommonAhoCorasickSegmentUtil = JClass(
"com.hankcs.hanlp.seg.Other.CommonAhoCorasickSegmentUtil")
Config = JClass("com.hankcs.hanlp.HanLP$Config")
TreeMap = JClass("java.util.TreeMap")
TreeSet = JClass("java.util.TreeSet")
dictionary = StringDictionary()
dictionary.load(Config.PinyinDictionaryPath)
entry = {}
m_map = TreeMap()
for entry in dictionary.entrySet():
pinyins = entry.getValue().replace("[\\d,]", "")
words = m_map.get(pinyins)
if words is None:
words = TreeSet()
m_map.put(pinyins, words)
words.add(entry.getKey())
words = TreeSet()
words.add("绿色")
words.add("滤色")
m_map.put("lvse", words)
segment = CommonAhoCorasickDoubleArrayTrieSegment(m_map)
print(segment.segment("renmenrenweiyalujiangbujianlvse"))
if __name__ == "__main__":
demo_pinyin_to_chinese()
10.繁简转换
Jianti = HanLP.convertToSimplifiedChinese("我愛自然語言處理技術!")
Fanti = HanLP.convertToTraditionalChinese("我爱自然语言处理技术!")
print(Jianti)
print(Fanti)
我爱自然语言处理技术!
我愛自然語言處理技術!
说明
- HanLP能够识别简繁分歧词,比如打印机=印表機。
- 支持香港繁体和台湾繁体
算法详解
11. 用户自定义词典
print(HanLP.segment(text))
CustomDictionary = JClass("com.hankcs.hanlp.dictionary.CustomDictionary")
CustomDictionary.add("攻城狮") # 动态增加
CustomDictionary.insert("白富美", "nz 1024") # 强行插入
#CustomDictionary.remove("攻城狮"); # 删除词语(注释掉试试)
CustomDictionary.add("单身狗", "nz 1024 n 1")
#print(CustomDictionary.get("单身狗"))
print(HanLP.segment(text))
> [攻城/vi, 狮/ng, 逆袭/nz, 单身/n, 狗/n, ,/w, 迎娶/v, 白富美/nr, ,/w, 走上/v, 人生/n, 巅峰/n]
> [攻城狮/nz, 逆袭/nz, 单身狗/nz, ,/w, 迎娶/v, 白富美/nz, ,/w, 走上/v, 人生/n, 巅峰/n]
说明
- CustomDictionary是一份全局的用户自定义词典,可以随时增删,影响全部分词器。另外可以在任何分词器中关闭它。通过代码动态增删不会保存到词典文件。
- 中文分词≠词典,词典无法解决中文分词,Segment提供高低优先级应对不同场景,请参考FAQ。
追加词典
- CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt,用户可以在此增加自己的词语(不推荐);也可以单独新建一个文本文件,通过配置文件CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典(推荐)。
- 始终建议将相同词性的词语放到同一个词典文件里,便于维护和分享。
词典格式
- 每一行代表一个单词,格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] … 如果不填词性则表示采用词典的默认词性。
- 词典的默认词性默认是名词n,可以通过配置文件修改:全国地名大全.txt ns;如果词典路径后面空格紧接着词性,则该词典默认是该词性。
算法详解
12. 数词和数量词识别
StandardTokenizer = JClass("com.hankcs.hanlp.tokenizer.StandardTokenizer")
StandardTokenizer.SEGMENT.enableNumberQuantifierRecognize(True)
print(StandardTokenizer.segment(sentence))
[十九元/mq, 套餐/n, 包括/v, 什么/ry]
[壹佰块/mq, 都/d, 不/d, 给/p, 我/rr]
[9012345678只/mq, 蚂蚁/n]
13. 同义改写
CoreSynonymDictionary = JClass("com.hankcs.hanlp.dictionary.CoreSynonymDictionary")
text = "这个方法可以利用同义词词典将一段文本改写成意思相似的另一段文本,而且差不多符合语法"
print(CoreSynonymDictionary.rewrite(text))
> 其一措施可以使同义词词典将一律段文本改写成意思相似之任何一样段文本,而且大多符合语法
14. 情感分析
NaiveBayesClassifier = JClass('com.hankcs.hanlp.classification.classifiers.NaiveBayesClassifier')
classifier = NaiveBayesClassifier()
# 创建分类器,更高级的功能请参考IClassifier的接口定义
classifier.train(chn_senti_corp)
# 训练后的模型支持持久化,下次就不必训练了
predict(classifier, "前台客房服务态度非常好!早餐很丰富,房价很干净。再接再厉!")
15. 聚类
ClusterAnalyzer = JClass('com.hankcs.hanlp.mining.cluster.ClusterAnalyzer')
analyzer = ClusterAnalyzer()
analyzer.addDocument("赵一", "流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 蓝调, 蓝调, 蓝调, 蓝调, 蓝调, 蓝调, 摇滚, 摇滚, 摇滚, 摇滚")
analyzer.addDocument("钱二", "爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲")
analyzer.addDocument("张三", "古典, 古典, 古典, 古典, 民谣, 民谣, 民谣, 民谣")
analyzer.addDocument("李四", "爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 金属, 金属, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲")
analyzer.addDocument("王五", "流行, 流行, 流行, 流行, 摇滚, 摇滚, 摇滚, 嘻哈, 嘻哈, 嘻哈")
analyzer.addDocument("马六", "古典, 古典, 古典, 古典, 古典, 古典, 古典, 古典, 摇滚")
print(analyzer.kmeans(3))
print(analyzer.repeatedBisection(3))
print(analyzer.repeatedBisection(1.0)) # 自动判断聚类数量k
16. 语义距离
CoreSynonymDictionary = JClass("com.hankcs.hanlp.dictionary.CoreSynonymDictionary")
word_array = [
"香蕉",
"苹果",
"白菜",
"水果",
"蔬菜",
"自行车",
"公交车",
"飞机",
"买",
"卖",
"购入",
"新年",
]
print("%-5s\t%-5s\t%-10s\t%-5s\n" % ("词A", "词B", "语义距离", "语义相似度"))
for a in word_array:
for b in word_array:
print("%-5s\t%-5s\t%-15d\t%-5.10f" % (a, b, CoreSynonymDictionary.distance(a, b), CoreSynonymDictionary.similarity(a, b)))
> 返回两两之间的语义距离和语义相似度
说明
- 可以得到给出的词汇之间语义的相似度
- word2vec文档
- 《word2vec原理推导与代码分析》
17. 文本推荐(类似搜索引擎功能)
Suggester = JClass("com.hankcs.hanlp.suggest.Suggester")
suggester = Suggester()
title_array = [
"威廉王子发表演说 呼吁保护野生动物",
"魅惑天后许佳慧不爱“预谋” 独唱《许某某》",
"《时代》年度人物最终入围名单出炉 普京马云入选",
"“黑格比”横扫菲:菲吸取“海燕”经验及早疏散",
"日本保密法将正式生效 日媒指其损害国民知情权",
"英报告说空气污染带来“公共健康危机”"
]
for title in title_array:
suggester.addSentence(title)
print(suggester.suggest("陈述", 2)) # 语义
print(suggester.suggest("危机公关", 1)) # 字符
print(suggester.suggest("mayun", 1)) # 拼音
print(suggester.suggest("徐家汇", 1)) # 拼音