1、jieba 分词

  • jieba分词属于概率语言模型分词:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。
  • jieba支持三种分词模式
    • 精确模式:试图将句子最精确的切开,适合文本分析
    • 全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义
    • 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
  • 此外,jieba还支持繁体分词、自定义词典。

    1)jieba 分词原理

  • 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

    • 根据dict.txt生成trie树,在生成trie树的同时,把每个词的出现次数转换为频率
      • jieba自带一个dict.txt词典,里面有 2 万多条词, 包含了词条出现的次数和词性(作者基于人民日报语料等资源训练得到)。trie树结构的词图扫描,即把这 2 万多条词语放到一个trie树(前缀树)中,查找速度快。
    • 对待分词句子,根据dict.txt生成的trie树,生成 DAG。将句子根据给定的词典进行查词典操作,生成所有可能的句子切分。
      • jieba在 DAG 中记录的是句子中某个词的开始位置,从 0 到 n-1(n 为句子的长度);每个开始位置作为字典的 key,value 是个保存了可能的词语结束位置的 list(通过查字典得到词,开始位置+词语的长度得到结束位置)
      • 所以可以联想jieba支持全模式分词,能把句子中所有的可以成词的词语都扫描出来。例如:{0: [1,2,3]}这样一个简单的 DAG,就是表示 0 位置开始,在1,2,3位置都是词,即:0~1、0~2、0~3 这三个起始位置之间的字符在dict.txt中是词语。
  • 动态规划查找最大概率路径,找出基于词频的最大切分组合

    • 查找待分词句子中已经切分好的词语(全模式下的分词 list),得出该词语出现的频率(次数/总数),如果没有该词(基于词典一般都是有的),就把词典中出现频率最小的那个词语的频率作为该词的频率:P(某词语)=FREQ.get("某词语", min_freq)
    • 根据动态规划查找最大概率路径的方法,对句子从右往左反向计算最大概率(因为汉语句子的重心经常落在后面(右边), 因为通常情况下形容词太多,后面的才是主干)。因此,从右往左计算的正确率要高于从左往右计算,这里类似于逆向最大匹配)。P(NodeN)=1.0P(NodeN-1)=P(NodeN)*Max(P(倒数第一个词)),依次类推。最后得到最大概率路径,得到最大概率的切分组合。
      1. # 动态规划, 计算最大概率的切分组合
      2. def calc(sentence, DAG, idx, route):
      3. """
      4. sentence: 句子
      5. DAG: 句子的有向无环图
      6. """
      7. # 句子长度
      8. N = len(sentence)
      9. route[N] = (0.0, '')
      10. # 从后往前遍历每个分词
      11. for idx in xrange(N-1, -1, -1):
      12. #jy: FREQ 保存的是每个词在 dict 中的频度得分, 打分的公式是 log(float(v)/total),
      13. # 其中 v 就是被打分词语的频数
      14. # 由于 DAG 中是以字典 + list 的结构存储的, 所以确定了 idx 为 key 之外,
      15. # 仍然需要 for x in DAG[idx] 来遍历所有的单词结合方式(因为存在不同的结合方法,
      16. # 例如 "国", "国家"等), 以 (频度得分值, 词语最后一个字的位置) 这样的 tuple 保存
      17. # 在 route 中;
      18. candidates = [(FREQ.get(sentence[idx:x+1], min_freq) + route[x+1][0] , x) \
      19. for x in DAG[idx]]
      20. route[idx] = max(candidates)
  • 对于未登录词,采用基于汉字成词能力的 HMM 模型,使用 Viterbi 算法

    • 未登录词:词典dict.txt中没有记录的词(注: 就算把dict.txt中所有的词汇全部删掉,jieba依然能够分词,不过分出来的词大部分的长度为 2,这个就是基于 HMM 预测得到的结果)
    • 利用 HMM 模型将中文词汇按照 BEMS 四个状态来标记,如:北京可以标注为BE中华民族可以标注为BMME
      • B(begin):开始位置
      • E(end):结束位置
      • M(middle):中间位置
      • S(singgle):单独成词的位置
    • 作者利用大量语料进行训练,得到了三个概率表:
      • 位置转换概率(prob_trans.py):即 B、M、E、S 四种状态的转移概率,P(E|B) = 0.851P(M|B) = 0.149,说明当处于一个词的开头时,下一个字是结尾的概率要远高于下一个字是中间字的概率(因为二个字的词比多个字的词更常见)。
      • 位置到单字的发射概率(prob_emit.py),如:P("和"|M)表示一个词的中间出现"和"这个字的概率
      • 词语以某种状态开头的概率(prob_start.py,其实只有两种,要么是 B,要么是 S)。这个就是起始向量, 就是HMM 系统的最初模型状态。实际上 BEMS 之间的转换有点类似于 2 元模型(2 个词之间的转移)。二元模型考虑一个单词后出现另外一个单词的概率,是 N 元模型中的一种。
  • 给定一个待分词的句子,观察序列,对 HMM(BEMS)四种状态的模型来说,就是为了找到一个最佳的 BEMS 序列,这个就需要使用 viterbi 算法来得到这个最佳的隐藏状态序列。通过训练得到的概率表和 viterbi 算法,就可以得到一个概率最大的 BEMS 序列,按照 B 打头、E 结尾的方式,对待分词的句子重新组合,就得到了分词结果。比如对待分词的句子“全世界都在学中国话”得到一个 BEMS 序列 [S,B,E,S,S,S,B,E,S],通过把连续的 BE 凑合到一起得到一个词, 单独的 S 放单,就得到一个分词结果。
  • 总结

    • 基于前缀词典实现高效的词图扫描,生成了句子中汉字所有可能成词情况所构成的有向无环图(DAG)。

      • 生成全切分词图:加载字典,生成trie树,根据trie树对句子进行全切分,并且生成一个邻接链表表示的词图(DAG)。查词典形成切分词图的主体过程:
        1. for(int i=0; i<len;){
        2. // 到词典中查询
        3. boolean match = dict.getMatch(sentence, i, wordMatch);
        4. // 已经匹配上
        5. if (match) {
        6. // 把查询到的词作为边加入切分词图中
        7. for (String word:wordMatch.values)
        8. {
        9. j = i+word.length();
        10. g.addEdge(new CnToken(i, j, 10, word));
        11. }
        12. i=wordMatch.end;
        13. // 把单字作为边加入切分词图中
        14. }else{
        15. j = i+1;
        16. g.addEdge(new CnToken(i,j,1,sentence.substring(i,j)));
        17. i=j;
        18. }
        19. }
    • 采用了动态规划查找最大路径概率,找出基于词频的最大切分组合

      • 计算最佳切分路径:在词图(DAG)的基础上,运用动态规划算法生成切分最佳路径(最大概率路径)。
    • 使用了 HMM 模型(使用 Viterbi 算法)对未登录词进行识别:对 DAG 中那些没有在字典中查到的字(未登录词,如:中国人名、外国人名、地名、机构名),组合成一个新的片段短语,使用 HMM 模型进行分词。
    • 重新计算最佳切分路径。

      2)jieba 分词的不足

  • dict.txt字典占用的内存为140M+,占用内存过多。jieba中词典的使用是为了弥补 HMM 在识别多字词方面能力欠佳的问题,所以词典中保存的是 3、4 个字的词语。专业化的词典生成不方便,怎么训练自己的专用概率表没有提供工具。

  • HMM 是否能够识别新词与训练的词库有关。新词的字出现的概率在一段时间内会井喷,但在长期的语言现象中应该还是平稳的,除非这个词从一出现就很流行,而且会流行很长的时间。因此 HMM 识别新词的功能在时效性上是不足的,并且只能识别 2 个字的词,对于 3 个字的新词,相对能力有限。只有 BEMS 序列组合成词的算法的改变和新词获取算法的改变才能得到改善。
    • HMM 分词的结果生成方式是把 B 开始 E 结束的序列组合成一个词,这种判断方法不一定正确,比如 BES 能不能算作一个词的序列也值得考虑)。
    • 引入二元分词的判断可以降低对词典的依赖,词典的使用就是为了弥补 HMM 在识别多字词方面能力欠佳的问题,所以词典中保存的是 3、4 个字的词语。
  • 词性标注效果不够好,没有句法分析、语义分析。
    • 在分词时不能同时识别词性(分词时没有处理词性,即没有语义分析、词性标注的部分),而是使用另外的 posseg 模块进行。同时,新词的词性可能没法识别。
    • 关于词性标注,得到的结果没有一点分析,词性来源于哪里都没有说明,不利于大家一起改进。句法分析、语义分析都没有。
    • 词性标注应该也是基于 BEMS 标注进行的,是否可以独立出来(即基于语义来标示词性或者基于词语在句子中的位置来做推断进行标注词性)。
  • 命名实体识别(专有名词,如人名、地名、机构名)效果不够好。
  • 分词过程中不能获得这个句子中出现的词的次数信息(出现频率高的词不能用于抽取文章的关键词)。

    3)应用示例

    (1)分词

  • 待分词的字符串可以是 unicode、UTF-8、GBK 字符串。

  • jieba.cutjieba.cut_for_search返回的结果都是一个可迭代的 generator,可以使用 for循环来获得分词后得到的每一个词语(Unicode)
  • jieba.lcutjieba.lcut_for_search直接返回 list
  • jieba.Tokenizer(dictionary=DEFAULT_DICT)新建自定义分词器,可用于同时使用不同词典。
    • jieba.dt为默认分词器,所有全局分词相关函数都是该分词器的映射。 ```python def cut(self, sentence, cut_all=False, HMM=True): ‘’’ The main function that segments an entire sentence that contains Chinese characters into seperated words. Parameter:
      • sentence: The str(unicode) to be segmented.(需要分词的字符串)
      • cut_all: Model type. True for full pattern, False for accurate pattern.
        1. 是否采用全模式
      • HMM: Whether to use the Hidden Markov Model.(是否使用 HMM 模型) ‘’’

def cut_for_search(self, sentence, HMM=True): “”” Finer segmentation for search engines.(适用于搜索引擎构建倒排索引的分词, 粒度比较细) sentence: 需要分词的字符串 HMM: 是否使用 HMM 模型 “””

def lcut(self, args, **kwargs): return list(self.cut(args, **kwargs))

def lcut_for_search(self, args, **kwargs): return list(self.cut_for_search(args, **kwargs))

  1. - 代码示例:
  2. ```python
  3. import jieba
  4. # 全模式
  5. seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
  6. # jy: Full Mode: 我/来到/北京/清华/清华大学/华大/大学
  7. print("Full Mode: " + "/".join(seg_list))
  8. # 精确模式
  9. seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
  10. # jy: Default Mode: 我/来到/北京/清华大学
  11. print("Default Mode: " + "/".join(seg_list))
  12. # 不使用 HMM 模型
  13. seg_list = jieba.cut("他来到了网易杭研大厦", HMM=False)
  14. # jy: 他/来到/了/网易/杭/研/大厦
  15. print("/".join(seg_list))
  16. # 使用 HMM 模型
  17. seg_list = jieba.cut("他来到了网易杭研大厦", HMM=True)
  18. # jy: 他/来到/了/网易/杭研/大厦
  19. print("/".join(seg_list))
  20. # 搜索引擎模式
  21. seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造",
  22. HMM=False)
  23. # jy: 小/明/硕士/毕业/于/中国/科学/学院/科学院/中国科学院/计算/计算所/,/后/在/日本/京都/大学/日本京都大学/深造
  24. print("/".join(seg_list))
  25. seg_list = jieba.lcut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造",
  26. HMM=True)
  27. # jy: ['小明', '硕士', '毕业', '于', '中国', '科学', '学院', '科学院', '中国科学院', '计算', '计算所', ',', '后', '在', '日本', '京都', '大学', '日本京都大学', '深造']
  28. print(seg_list)

(2)添加自定义词典

  • 开发者可以指定自己定义的词典,以便包含jieba词库里没有的词。虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率。用法:
    • jieba.load_userdict(file_name)
    • file_name:文件类对象或自定义词典的路径(若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码);词典格式和dict.txt一样:
      • 一个词占一行
      • 每一行分三个部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。
  • 词频省略时会使用自动计算的词频,能保证分出该词的词频。
    • 注意:自动计算的词频在使用 HMM 新词发现功能时可能无效。 ```python import jieba

test_sent = ( “李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿\n” “例如我输入一个带“韩玉赏鉴”的标题,在自定义词库中也增加了此词为N类\n” “「台中」正確應該不會被切開。mac上可分出「石墨烯」;此時又可以分出來凯特琳了。” )

在使用自定义词典或添加词条前的切割测试

words = jieba.cut(test_sent) print(“/“.join(words))

加载用户自定义词典

jieba.load_userdict(“userdict.txt”) print(“=” * 100)

用户自定义词典中出现的词条被正确划分

words = jieba.cut(test_sent) print(“/“.join(words))

添加词条: add_word(word, freq = None, tag = None)

jieba.add_word(“石墨烯”) jieba.add_word(“凯特琳”)

删除词条: del_word(word)

jieba.del_word(“自定义词”)

print(“=” * 100)

再次进行测试

words = jieba.cut(test_sent) print(“/“.join(words))

  1. - 更改分词器(默认为`jieba.dt`)的`tem_dir``catch_file`属性,可分别指定缓存文件所在的文件夹以及文件名,用于受限的文件系统。
  2. - 使用`suggest_freq(segment, tune = True)`可调节单个词语的词频,使其能(或不能)被分出来:
  3. ```python
  4. import jieba
  5. # jy: 如果/放到/post/中将/出错/。
  6. print("/".join(jieba.cut("如果放到post中将出错。", HMM=False)))
  7. # 可以 print 查看
  8. jieba.suggest_freq(("中", "将"), True)
  9. # jy: 如果/放到/post/中/将/出错/。
  10. print("/".join(jieba.cut("如果放到post中将出错。", HMM=False)))
  11. # jy: 台/中/正确/应该/不会/被/切开
  12. print("/".join(jieba.cut("台中正确应该不会被切开", HMM=False)))
  13. jieba.suggest_freq("台中", True)
  14. # jy: 台中/正确/应该/不会/被/切开
  15. print("/".join(jieba.cut("台中正确应该不会被切开", HMM=False)))

(3)关键词提取

基于 TF-IDF 算法:jieba.analyse

  1. import jieba.analyse
  2. import jieba
  3. text = """关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、
  4. 信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、
  5. 文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作"""
  6. """
  7. text: 待提取文本
  8. topK: 返回几个 TF-IDF 权重最大的关键词(默认 20)
  9. withWeight: 是否一并返回关键词权重值(默认 FALSE)
  10. allowPOS: 仅包括指定词性的词(默认为空, 即不筛选)
  11. """
  12. # jy: 关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径
  13. jieba.analyse.set_idf_path("/path/to/f_corpus")
  14. # jy: 关键词提取所使用的停用词文本语料库可以切换成自定义语料库的路径
  15. jieba.analyse.set_stop_words("/path/to/f_stopwords")
  16. keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=())
  17. # jy: ['文档', '文本', '关键词', '挖掘', '文本检索']
  18. print(keywords)
  19. text = "甘氨酸二肽的合成"
  20. keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=())
  21. # jy: ['二肽', '甘氨酸', '合成']
  22. print(keywords)
  23. # jy: 新建 TFIDF 实例, idf_path 为 IDF 频率文件
  24. #jieba.analyse.TFIDF(idf_path = None)

基于 TextRank 算法

  • 基本思想:
    • 将待抽取关键词的文本进行分词
    • 以固定窗口大小(默认为 5,通过 span 属性调整),词之间的共现关系,构建图
    • 计算图中节点的 pagerank,注意是无向带权图 ```python

      jy: 直接使用, 接口与 jieba.analyse.extract_tags 相同, 注意默认过滤词性

      jieba.analyse.textrank(sentence, topK = 20, withWeight = False,
      1. allowPOS = ('ns', 'n', 'vn', 'v'))

jy: 新建自定义 TextRank 示例

jieba.analyse.TextRank()

  1. <a name="yk0eh"></a>
  2. ### (4)词性标注
  3. - 新建自定义分词器:
  4. - `jieba.posseg.POSTokenizer(tokenizer = None)`
  5. - `tokenizer`参数可指定内部使用的`jieba.Tokenizer`。标注句子分词后每个词的词性,采用和ictclas 兼容的标记法。
  6. ```python
  7. import jieba.posseg as pseg
  8. words = pseg.cut("我爱北京天安门")
  9. for word, flag in words:
  10. print("%s %s" % (word, flag))
  11. """
  12. 我 r
  13. 爱 v
  14. 北京 ns
  15. 天安门 ns
  16. """

(5)Tokenize:返回词语在原文的起止位置

  • 注意:输入参数只接受 Unicode ```python import jieba

jy: 默认模式

result = jieba.tokenize(“永和服装饰品有限公司”) for tk in result: print(“word %s\t\t start:%d\t\t end:%d” % (tk[0],tk[1],tk[2])) “”” word 永和 start:0 end:2 word 服装 start:2 end:4 word 饰品 start:4 end:6 word 有限公司 start:6 end:10 “””

jy: 搜索模式

result = jieba.tokenize(“永和服装饰品有限公司”, mode=”search”) for tk in result: print(“word %s\t\t start:%d\t\t end:%d” % (tk[0],tk[1],tk[2])) “”” word 永和 start:0 end:2 word 服装 start:2 end:4 word 饰品 start:4 end:6 word 有限 start:6 end:8 word 公司 start:8 end:10 word 有限公司 start:6 end:10 “””

  1. <a name="T63kg"></a>
  2. ### (6)命令行分词
  3. - `python -m jieba file_name`
  4. - `python -m jieba --help`
  5. ```shell
  6. usage: /root/anaconda3/bin/python -m jieba [options] filename
  7. Jieba command line interface.
  8. positional arguments:
  9. filename input file
  10. optional arguments:
  11. -h, --help show this help message and exit
  12. -d [DELIM], --delimiter [DELIM]
  13. use DELIM instead of ' / ' for word delimiter; or a
  14. space if it is used without DELIM
  15. -p [DELIM], --pos [DELIM]
  16. enable POS tagging; if DELIM is specified, use DELIM instead
  17. of '_' for POS delimiter
  18. -D DICT, --dict DICT use DICT as dictionary
  19. -u USER_DICT, --user-dict USER_DICT
  20. use USER_DICT together with the default dictionary or DICT (if
  21. specified)
  22. -a, --cut-all full pattern cutting (ignored with POS tagging)
  23. -n, --no-hmm don\'t use the Hidden Markov Model
  24. -q, --quiet don\'t print loading messages to stderr
  25. -V, --version show program\'s version number and exit
  26. If no filename specified, use STDIN instead.

4)jieba 中的缓存路径设置

  • 修改/jieba/__init__.py中的如下代码即可(默认为/tmp路径下):
    1. """
    2. cache_file = os.path.join(
    3. self.tmp_dir or tempfile.gettempdir(), cache_file)
    4. """
    5. cache_file = os.path.join(
    6. self.tmp_dir or "/var/tmp", cache_file)

2、spacy 包实现分词

  • 参考 spacy 包中的 zh_core_web_sm 模型(spacy 3.3.0 版本后)