今年,天上多了颗“南仁东星”,全军英模挂像里多了林俊德和张超两位同志。我们要记住守岛卫国32年的王继才同志,为保护试验平台挺身而出、壮烈牺牲的黄群、宋月才、姜开斌同志,以及其他为国为民捐躯的英雄们。他们是新时代最可爱的人,永远值得我们怀念和学习。

    习近平:《习近平2019年新年贺词》

    人名识别 - 图1

    结巴分词无法识别出所有的人名,需要创建字典,提供个结巴。

    人名识别 - 图2

    有两种方式在jieba中添加人名,如果添加少数几个人,可以使用 jieba.add_word , 如果添加的词汇较多,可以使用j加载自定义字典 jieba.load_userdict 的方式。

    示例代码

    1. import jieba.posseg as pseg
    2. words = pseg.cut("宋江和李逵去了平门府")
    3. for word, flag in words:
    4. print('%s %s' % (word, flag))
    1. 宋江 nr
    2. c
    3. 李逵 nr
    4. v
    5. ul
    6. 平门府 n

    用户字典示例:

    云计算 5
    李小福 2 nr
    创新办 3 i
    easy_install 3 eng
    好用 300
    韩玉赏鉴 3 nz
    八一双鹿 3 nz
    台中
    凱特琳 nz
    Edu Trust认证 2000
    

    使用 add_word(word, freq=None, tag=None)del_word(word) 可在程序中动态修改词典。

    识别停用词

    人名识别 - 图3