- ——JioNLP:中文 NLP 预处理工具包 A Python Lib for Chinese NLP Preprocessing
- ——安装:pip install jionlp
- JioNLP在线版 可快速试用部分功能(测试版,可能存在不稳定)">——JioNLP在线版 可快速试用部分功能(测试版,可能存在不稳定)
- 总之,JioNLP 提供 NLP 任务预处理功能,准确、高效、零使用门槛,并提供一步到位的查阅入口。
- 功能主要包括:文本清洗,删除HTML标签、删除异常字符、删除冗余字符,转换全角字母、数字、空格为半角,抽取及删除E-mail及域名、抽取及删除(手机号、座机号)电话号码、抽取及删除QQ号、抽取及删除括号内容、抽取及删除身份证号、抽取及删除IP地址、抽取及删除URL超链接、抽取及删除货币金额与单位,金额数字转大写汉字,时间语义解析,解析身份证号信息、解析手机号码归属地、解析座机区号归属地、解析手机号码运营商,按行快速读写文件,(多功能)停用词过滤,(优化的)分句,地址解析,新闻地域识别,繁简体转换,汉字转拼音,汉字偏旁、字形、四角编码、五笔编码拆解,基于词典的情感分析,色情数据过滤,反动数据过滤,关键短语抽取,抽取式文本摘要,成语接龙,成语词典、歇后语词典、新华字典、新华词典、停用词典、中国地名词典、中国县级地名变更词典、世界地名词典,时间实体抽取,基于词典的NER,NER的字、词级别转换,NER的entity和tag格式转换,NER模型的预测阶段加速并行工具集,NER标注和模型预测的结果差异对比,NER标注数据集分割与统计,NER实体收集、文本分类标注数据集的分割与统计、回译数据增强、相邻近汉字换位数据增强、同音词替换数据增强、随机增删字符数据增强、实体替换数据增强、公历转农历日期、农历转公历日期
资料地址:
github-JioNLP
CSDN:作者博客-JioNLP:预处理、信息抽取、数据增强、NLP简单功能与词典,找它就对了!
——JioNLP:中文 NLP 预处理工具包 A Python Lib for Chinese NLP Preprocessing
——安装:pip install jionlp
——JioNLP在线版 可快速试用部分功能(测试版,可能存在不稳定)
- 做 NLP 任务,需要清洗、过滤语料?用 JioNLP
- 做 NLP 任务,需要做信息抽取?用 JioNLP
- 做 NLP 任务,需要数据增强?用 JioNLP
- 做 NLP 任务,需要给模型添加偏旁、拼音、词典、繁体转换信息?用 JioNLP
总之,JioNLP 提供 NLP 任务预处理功能,准确、高效、零使用门槛,并提供一步到位的查阅入口。
功能主要包括:文本清洗,删除HTML标签、删除异常字符、删除冗余字符,转换全角字母、数字、空格为半角,抽取及删除E-mail及域名、抽取及删除(手机号、座机号)电话号码、抽取及删除QQ号、抽取及删除括号内容、抽取及删除身份证号、抽取及删除IP地址、抽取及删除URL超链接、抽取及删除货币金额与单位,金额数字转大写汉字,时间语义解析,解析身份证号信息、解析手机号码归属地、解析座机区号归属地、解析手机号码运营商,按行快速读写文件,(多功能)停用词过滤,(优化的)分句,地址解析,新闻地域识别,繁简体转换,汉字转拼音,汉字偏旁、字形、四角编码、五笔编码拆解,基于词典的情感分析,色情数据过滤,反动数据过滤,关键短语抽取,抽取式文本摘要,成语接龙,成语词典、歇后语词典、新华字典、新华词典、停用词典、中国地名词典、中国县级地名变更词典、世界地名词典,时间实体抽取,基于词典的NER,NER的字、词级别转换,NER的entity和tag格式转换,NER模型的预测阶段加速并行工具集,NER标注和模型预测的结果差异对比,NER标注数据集分割与统计,NER实体收集、文本分类标注数据集的分割与统计、回译数据增强、相邻近汉字换位数据增强、同音词替换数据增强、随机增删字符数据增强、实体替换数据增强、公历转农历日期、农历转公历日期
# pip3 install pkuseg# pip3 install jionlpimport jionlp as jio"""JioNLP:中文 NLP 预处理工具包 A Python Lib for Chinese NLP Preprocessinggithub:https://github.com/dongrixinyu/JioNLP"""# 1、关键短语抽取text = '全球领先的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。'key_phrases = jio.keyphrase.extract_keyphrase(text)print(key_phrases)# ['中文搜索', '中文网页数据库', '搜索结果', '百度', '网民']# 2、文本摘要抽取res = jio.summary.extract_summary(text)print(res)# 全球领先的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。# 3、删除异常字符text = '''中国人民坚强伟大√~~'''res = jio.remove_exception_char(text)print(res)# '中国人民坚强伟大~~'# 4、清洗文本text = '''<p><br></p> <p><span>在17日举行的十三届全国人大一次会议记者会上,环境保护部部长李干杰就“打好污染防治攻坚战”相关问题回答记者提问。李干杰表示,打好污染防治攻坚战,未来将聚焦“围绕三类目标,突出三大领域,强化三个基础”开展具体工作。</span></p><p><span>顶层设计聚焦“三个三”</span></p><p><span>党的十八大以来>,我国生态环境保护工作乃至整个生态文明建设工作,决心之大、力度之大、成效之大前所未有,取得了历史性成就,发生了历史性变革。(责任编辑:唐小林)联系电话:13302130583,邮箱:dongrixinyu.89@163.com~~~~'''res = jio.clean_text(text)print(res)# ' 在17日举行的十三届全国人大一次会议记者会上,环境保护部部长李干杰就“打好污染防治攻坚战”相关问题回答记者提问。李干杰表示,打好污染防治攻坚战,未来将聚焦“围绕三类目标,突出三大领域,强化三个基础”开展具体工作。顶层设计聚焦“三个三”党的十八大以来,我国生态环境保护工作乃至整个生态文明建设工作,决心之大、力度之大、>成效之大前所未有,取得了历史性成就,发生了历史性变革。联系电话:,邮箱:~'# 5、繁体转简体text = '今天天氣好晴朗,想喫速食麵。妳還在工作嗎?在太空梭上工作嗎?'res1 = jio.tra2sim(text, mode='char')res2 = jio.tra2sim(text, mode='word')print(res1)print(res2)# 今天天气好晴朗,想吃速食面。你还在工作吗?在太空梭上工作吗?# 今天天气好晴朗,想吃方便面。你还在工作吗?在航天飞机上工作吗?# 6、简体转繁体text = '今天天气好晴朗,想吃方便面。你还在工作吗?在航天飞机上工作吗?'res1 = jio.sim2tra(text, mode='char')res2 = jio.sim2tra(text, mode='word')print(res1)print(res2)# 今天天氣好晴朗,想喫方便面。妳還在工作嗎?在航天飛機上工作嗎?# 今天天氣好晴朗,想喫速食麵。妳還在工作嗎?在太空梭上工作嗎?# 7、汉字转拼音text = '中华人民共和国。'res1 = jio.pinyin(text)res2 = jio.pinyin(text, formater='simple')res3 = jio.pinyin('中国', formater='detail')print(res1)print(res2)print(res3)# ['zhōng', 'huá', 'rén', 'mín', 'gòng', 'hé', 'guó', '<py_unk>']# ['zhong1', 'hua2', 'ren2', 'min2', 'gong4', 'he2', 'guo2', '<py_unk>']# [{'consonant': 'zh', 'vowel': 'ong', 'tone': '1'},# {'consonant': 'g', 'vowel': 'uo', 'tone': '2'}]
