资料地址:
github-JioNLP
CSDN:作者博客-JioNLP:预处理、信息抽取、数据增强、NLP简单功能与词典,找它就对了!

——JioNLP:中文 NLP 预处理工具包 A Python Lib for Chinese NLP Preprocessing

——安装:pip install jionlp

——JioNLP在线版 可快速试用部分功能(测试版,可能存在不稳定)

  • 做 NLP 任务,需要清洗、过滤语料?用 JioNLP
  • 做 NLP 任务,需要做信息抽取?用 JioNLP
  • 做 NLP 任务,需要数据增强?用 JioNLP
  • 做 NLP 任务,需要给模型添加偏旁、拼音、词典、繁体转换信息?用 JioNLP

    总之,JioNLP 提供 NLP 任务预处理功能,准确、高效、零使用门槛,并提供一步到位的查阅入口。

    功能主要包括:文本清洗,删除HTML标签、删除异常字符、删除冗余字符,转换全角字母、数字、空格为半角,抽取及删除E-mail及域名、抽取及删除(手机号、座机号)电话号码、抽取及删除QQ号、抽取及删除括号内容、抽取及删除身份证号、抽取及删除IP地址、抽取及删除URL超链接、抽取及删除货币金额与单位,金额数字转大写汉字,时间语义解析,解析身份证号信息、解析手机号码归属地、解析座机区号归属地、解析手机号码运营商,按行快速读写文件,(多功能)停用词过滤,(优化的)分句,地址解析,新闻地域识别,繁简体转换,汉字转拼音,汉字偏旁、字形、四角编码、五笔编码拆解,基于词典的情感分析,色情数据过滤,反动数据过滤,关键短语抽取,抽取式文本摘要,成语接龙,成语词典、歇后语词典、新华字典、新华词典、停用词典、中国地名词典、中国县级地名变更词典、世界地名词典,时间实体抽取,基于词典的NER,NER的字、词级别转换,NER的entity和tag格式转换,NER模型的预测阶段加速并行工具集,NER标注和模型预测的结果差异对比,NER标注数据集分割与统计,NER实体收集、文本分类标注数据集的分割与统计、回译数据增强、相邻近汉字换位数据增强、同音词替换数据增强、随机增删字符数据增强、实体替换数据增强、公历转农历日期、农历转公历日期

  1. # pip3 install pkuseg
  2. # pip3 install jionlp
  3. import jionlp as jio
  4. """
  5. JioNLP:中文 NLP 预处理工具包 A Python Lib for Chinese NLP Preprocessing
  6. github:https://github.com/dongrixinyu/JioNLP
  7. """
  8. # 1、关键短语抽取
  9. text = '全球领先的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。'
  10. key_phrases = jio.keyphrase.extract_keyphrase(text)
  11. print(key_phrases)
  12. # ['中文搜索', '中文网页数据库', '搜索结果', '百度', '网民']
  13. # 2、文本摘要抽取
  14. res = jio.summary.extract_summary(text)
  15. print(res)
  16. # 全球领先的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。
  17. # 3、删除异常字符
  18. text = '''中国人民坚强伟大√~~'''
  19. res = jio.remove_exception_char(text)
  20. print(res)
  21. # '中国人民坚强伟大~~'
  22. # 4、清洗文本
  23. text = '''<p><br></p> <p><span>在17日举行的十三届全国人大一次会议记者会上,环境保护部部长李干杰就“打好污染防治攻坚战”相关问题回答记者提问。李干杰表示,打好污染防治攻坚战,未来将聚焦“围绕三类目标,突出三大领域,强化三个基础”开展具体工作。</span></p><p><span>顶层设计聚焦“三个三”</span></p><p><span>党的十八大以来>,我国生态环境保护工作乃至整个生态文明建设工作,决心之大、力度之大、成效之大前所未有,取得了历史性成就,发生了历史性变革。(责任编辑:唐小林)联系电话:13302130583,邮箱:dongrixinyu.89@163.com~~~~'''
  24. res = jio.clean_text(text)
  25. print(res)
  26. # ' 在17日举行的十三届全国人大一次会议记者会上,环境保护部部长李干杰就“打好污染防治攻坚战”相关问题回答记者提问。李干杰表示,打好污染防治攻坚战,未来将聚焦“围绕三类目标,突出三大领域,强化三个基础”开展具体工作。顶层设计聚焦“三个三”党的十八大以来,我国生态环境保护工作乃至整个生态文明建设工作,决心之大、力度之大、>成效之大前所未有,取得了历史性成就,发生了历史性变革。联系电话:,邮箱:~'
  27. # 5、繁体转简体
  28. text = '今天天氣好晴朗,想喫速食麵。妳還在工作嗎?在太空梭上工作嗎?'
  29. res1 = jio.tra2sim(text, mode='char')
  30. res2 = jio.tra2sim(text, mode='word')
  31. print(res1)
  32. print(res2)
  33. # 今天天气好晴朗,想吃速食面。你还在工作吗?在太空梭上工作吗?
  34. # 今天天气好晴朗,想吃方便面。你还在工作吗?在航天飞机上工作吗?
  35. # 6、简体转繁体
  36. text = '今天天气好晴朗,想吃方便面。你还在工作吗?在航天飞机上工作吗?'
  37. res1 = jio.sim2tra(text, mode='char')
  38. res2 = jio.sim2tra(text, mode='word')
  39. print(res1)
  40. print(res2)
  41. # 今天天氣好晴朗,想喫方便面。妳還在工作嗎?在航天飛機上工作嗎?
  42. # 今天天氣好晴朗,想喫速食麵。妳還在工作嗎?在太空梭上工作嗎?
  43. # 7、汉字转拼音
  44. text = '中华人民共和国。'
  45. res1 = jio.pinyin(text)
  46. res2 = jio.pinyin(text, formater='simple')
  47. res3 = jio.pinyin('中国', formater='detail')
  48. print(res1)
  49. print(res2)
  50. print(res3)
  51. # ['zhōng', 'huá', 'rén', 'mín', 'gòng', 'hé', 'guó', '<py_unk>']
  52. # ['zhong1', 'hua2', 'ren2', 'min2', 'gong4', 'he2', 'guo2', '<py_unk>']
  53. # [{'consonant': 'zh', 'vowel': 'ong', 'tone': '1'},
  54. # {'consonant': 'g', 'vowel': 'uo', 'tone': '2'}]