自然语言的分类
词法分析
形态还原
- 有规律的 —- 通用规则
-
分词
切分的歧义
交集型歧义
- 组合型歧义
-
分词方法
正向最大匹配和逆向最大匹配
- 双向最大匹配
- 正向最大,逆向最小
- 逐个匹配找最大,然后删除,重复工作
- 设⽴切分标记。收集词⾸字和词尾字,把句⼦分成较⼩单位,再⽤某些⽅法切分
- 全切分。获得所有可能的切分,选择最⼤可能的切分
消除歧义
利⽤歧义字串、前驱字串和后继字串的句法、语义和语⽤信息
正则表达式:一种高效的描述方法
命名实体识别
词性标注
兼类词,一个词存在多个不同的词性
词性标注的方法
- 规则方法:用词典
- 统计方法,用语料库选择最优可能
- 错误驱动转化学习,统计学习规则,规则方法标注