layout: post # 使用的布局(不需要改)title: 中文NLP相关工具 # 标题
subtitle: Toolkits-分词-信息抽取-QA-中文语料 #副标题
date: 2019-09-18 # 时间
author: NSX # 作者
header-img: img/post-bg-2015.jpg #这篇文章标题背景图片
catalog: true # 是否归档
tags: #标签
- 技术
- NLP

中文NLP相关工具

  • 中文NLP综合工具包
  • 常用的英文或支持多语言的NLP工具包
  • 中文分词工具包
  • 信息提取工具包
  • QA & Chatbot 工具包
  • 中文语料资源

    中文NLP综合工具包

  • THULAC 中文词法分析工具包 by 清华 (C++/Java/Python)

  • NLPIR by 中科院 (Java)
  • LTP 语言技术平台 by 哈工大 (C++) pylyp LTP的python封装 这个是一个较完善的流水线了,提供分词、语义标注、 句法依赖、 实体识别。
  • FudanNLP by 复旦 (Java)
  • BaiduLac by 百度 Baidu’s open-source lexical analysis tool for Chinese, including word segmentation, part-of-speech tagging & named entity recognition.
  • HanLP (Java)
  • FastNLP (Python) 一款轻量级的 NLP 处理套件。
  • SnowNLP (Python) Python library for processing Chinese text
  • YaYaNLP (Python) 纯python编写的中文自然语言处理包,取名于“牙牙学语”
  • 小明NLP (Python) 轻量级中文自然语言处理工具
  • DeepNLP (Python) Deep Learning NLP Pipeline implemented on Tensorflow with pretrained Chinese models.
  • chinese_nlp (C++ & Python) Chinese Natural Language Processing tools and examples
  • lightNLP (Python) 基于Pytorch和torchtext的自然语言处理深度学习框架
  • Chinese-Annotator (Python) Annotator for Chinese Text Corpus 中文文本标注工具

常用的英文或支持多语言的NLP工具包

  • NLTK (Python) Natural Language Toolkit

  • spaCy (Python) Industrial-Strength Natural Language Processing with a online course

  • OpenNLP (Java) A machine learning based toolkit for the processing of natural language text.

  • gensim (Python) Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora.

  • Kashgari - Simple and powerful NLP framework, build your state-of-art model in 5 minutes for named entity recognition (NER), part-of-speech tagging (PoS) and text classification tasks. Includes BERT and word2vec embedding.

中文分词工具包

信息提取工具包

QA & Chatbot 工具包

中文语料资源

总结