1. 信息抽取 调研

1.1. 信息抽取概念

信息抽取(Information Extraction,IE)旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。
信息抽取的主要任务有:

  • 实体关系抽取(Entity and Relation Extraction,ERE)
    • 命名实体识别(Named Entity Recognition, NER )
    • 关系抽取(Relation Extracion, RE))
  • 事件抽取
  • 实体消歧

1.2. 实体关系抽取

实体关系抽取(Entity and Relation Extraction,ERE)是信息抽取的关键任务之一。
实体关系抽取的两种方法:

  • PipeLine方法
    • 把实体识别和关系分类作为两个完全独立的过程,不会相互影响,关系的识别依赖于实体识别的效果
    • 优点:Pipeline方法易于实现,这两个抽取模型的灵活性高,实体模型和关系模型可以使用独立的数据集,并不需要同时标注实体和关系的数据集
    • 缺点:
      • 误差积累
      • 实体冗余
      • 交互缺失
  • Joint Model (联合抽取方法)
    *

1.3. PipeLine方法

1.3.1. 实体抽取方法

  • LSTM+CRF(常用)
  • 序列标注:SoftMax和CRF
  • Span抽取:指针网络
  • 片段排列+分类
  • Seq2Seq

1.3.2. 关系抽取

  • 模板匹配
    • 人工模板s
    • 统计模板
  • 半监督学习
    • bootstrapping(自举)
    • 远程监督
      • 多示例学习
      • 强化学习
      • 预训练机制
    • Unsupervised learning from the web
  • 监督学习

1.4. Joint Model方法

主要方法有:

  • 参数共享
  • 联合解码