1. 分词概述

在自然语言处理任务中,一般分为三类:词法分析,句法分析,语义分析。这三类中的难度逐层递增。分词是词法分析中的最基本的任务,词法分析还包括词性标注、命名实体识别等。分词是最简单又是最复杂的算法研究,因为现阶段很多工具都能轻松达到95%的准确度,但是剩下的5%很难有突破。最要的原因概括性有以下几点:

  1. 粒度:有时候“小米手机”可以分为一个词,也可以分为两个词
  2. 歧义:我也想过过过过过过的生活。
  3. 没有录入的词,如新词

但是在真实的工业环境中,分词的准确效果欠佳肯定会对后续的任务造成很大的影响。所以在这里对常用的分词算法进行汇总学习,务求对原理能理解,如果可能还要自己能手动实现一遍。

2. 分词方法介绍与实现