1、基本介绍
- 词性(part-of-speech)是词汇基本的语法属性,通常也称为词性。
- 词性标注(part-of-speech tagging),又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。
- 词性标注是很多 NLP 任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。
- 如何标注
- 词性标注这里基本可以照搬分词的工作,在汉语中,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说单纯选取最高频词性,就能实现 80% 准确率的中文词性标注程序。
- 主要可以分为基于规则和基于统计的方法,下面列举几种统计方法:
- 基于最大熵的词性标注
- 基于统计最大概率输出词性
- 基于 HMM 的词性标注
词性标注的应用
n:名词
- np:人名
- ns:地名
- ni:机构名
- nz:其它专名
- m:数词
- q:量词
- mq:数量词
- t:时间词
- f:方位词
- s:处所词
- v:动词
- a:形容词
- d:副词
- h:前接成分
- k:后接成分
- i:习语
- j:简称
- r:代词
- c:连词
- p:介词
- u:助词
- y:语气助词
- e:叹词
- o:拟声词
- g:语素
- w:标点
- x:其它
(2)version-2
| 代码 | 说明 | 举例 | | —- | —- | —- | | a | 形容词,即 adjective 的首字母 | 最/d 大/a 的/u | | ad | 副词,直接作状语的形容词。形容词代码 a 和副词代码 d 并在一起 | 一定/d 能够/v 顺利/ad 实现/v 。/w | | ag | 形容词性语素。形容词代码为 a,语素代码g前面置以 a | 喜/v 煞/ag 人/n | | | | | | | | | | | | | | | | | | | | | | | | |
【undo】https://blog.csdn.net/sinat_33741547/article/details/78894163
参考
- 《统计自然语言处理》 宗成庆