自然语言的分类

词法分析

形态还原

  1. 有规律的 —- 通用规则
  2. 没有规律的 —- 个性规则

    分词

    切分的歧义

  3. 交集型歧义

  4. 组合型歧义
  5. 混合型歧义

    分词方法

  6. 正向最大匹配和逆向最大匹配

  7. 双向最大匹配
  8. 正向最大,逆向最小
  9. 逐个匹配找最大,然后删除,重复工作
  10. 设⽴切分标记。收集词⾸字和词尾字,把句⼦分成较⼩单位,再⽤某些⽅法切分
  11. 全切分。获得所有可能的切分,选择最⼤可能的切分

消除歧义
利⽤歧义字串、前驱字串和后继字串的句法、语义和语⽤信息

正则表达式:一种高效的描述方法

命名实体识别

词性标注

兼类词,一个词存在多个不同的词性

词性标注的方法

  1. 规则方法:用词典
  2. 统计方法,用语料库选择最优可能
  3. 错误驱动转化学习,统计学习规则,规则方法标注