两个任务

  1. 词性标注(part-of-speech tagging)

词性:名词(Nouns),动词(Verbs),形容词(Adjectives), 副词(Adverbs)等等

  • 输入:Plays well with others
  • 输出:Plays/VBZ well/RB with/IN others/NNS
  1. 命名实体识别(named entity recognition)

命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体

  • 输入:小明早上8点去学校上课
  • 输出:人名:小明,时间:早上8点,地点:学校。

标注算法

  1. 隐马尔科夫模型(HMM)
  2. 条件随机场(CRF)
  3. RNN
  4. Transformer