1. 信息抽取 调研
1.1. 信息抽取概念
信息抽取(Information Extraction,IE)旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。
信息抽取的主要任务有:
- 实体关系抽取(Entity and Relation Extraction,ERE)
- 命名实体识别(Named Entity Recognition, NER )
- 关系抽取(Relation Extracion, RE))
- 事件抽取
- 实体消歧
1.2. 实体关系抽取
实体关系抽取(Entity and Relation Extraction,ERE)是信息抽取的关键任务之一。
实体关系抽取的两种方法:
- PipeLine方法
- 把实体识别和关系分类作为两个完全独立的过程,不会相互影响,关系的识别依赖于实体识别的效果
- 优点:Pipeline方法易于实现,这两个抽取模型的灵活性高,实体模型和关系模型可以使用独立的数据集,并不需要同时标注实体和关系的数据集
- 缺点:
- 误差积累
- 实体冗余
- 交互缺失
- Joint Model (联合抽取方法)
*
1.3. PipeLine方法
1.3.1. 实体抽取方法
- LSTM+CRF(常用)
- 序列标注:SoftMax和CRF
- Span抽取:指针网络
- 片段排列+分类
- Seq2Seq
1.3.2. 关系抽取
- 模板匹配
- 人工模板s
- 统计模板
- 半监督学习
- bootstrapping(自举)
- 远程监督
- 多示例学习
- 强化学习
- 预训练机制
- Unsupervised learning from the web
- 监督学习
1.4. Joint Model方法
主要方法有:
- 参数共享
- 联合解码