关系抽取

封闭领域关系抽取,实体类型和关系类型有限
开放领域抽取,规模大,样本不平衡,稀疏,语言多样性

  1. 基于模板
  2. 远程监督方法

关系分类任务:给定实体对,给出关系类别。被看作是传统的监督学习任务,需要标注数据
远程监督自动建立大规模的标注数据。假设两个实体如果在数据库里有关系,那么所有的句子里都有

对应的有问题-》噪声

  1. False Negatives 数据库里没有的关系导致句子里的关系没有被标注出来
  2. False Positive 并不是所有的实体对的关系都和数据库里的一样

解决方法

  1. Suppressing Noise 降低False positive句子重要性
  2. Removing Noise 移除句子
  3. Rectifying Noise 纠正句子,纠正False positive和False Negatives

    Suppressing Noise

    Multi-instance learning
    用很多个实体作为一个bag

PCNN+ONE
对一个实体对下的多个句子进行判断,使用分数最高的作为训练,其他的都忽视
PCNN+ATT
使用Att机制,Att衡量了句子和目标关系的相关度
PCNN+HATT
利用多层网络计算“由粗到精”粒度的信息来判断句子的可信度
APCNN
实体描述提供了背景知识,加入学习实体向量
用TransE获取关系向量
用关系向量去得到句子的权重
RESIDE
用GRU获取长距离信息,用实体类别和关系对齐信息(获取于数据库)来强化表达

没有办法处理所有的句子都不描述关系

Removing Noise

强化学习方法,移除句子包里的错误标注
只解决了 false positives
false negatives 没有解决.

Rectifying Noise

先前的方法只删除或者不那么重视错误样本,得到一个次优的决策边界
所以希望通过修正样本直接得到最好的
For false positives: Wrong label True label or NA
For false negatives: NA True Label

DIAG-NRE
从NRE模型抽取和优化隐藏pattern
加入Weak-Label-Fusion得到净化后的数据
RCEND
用一个判别器作为强化学习的agent
在带噪声的数据和关系分类器中交互
尝试把数据集切割为对的和错的
image.png