1.问题分类:三元组重叠问题;数据噪声问题;暴露偏差问题(论文阅读量:74篇(20篇细读))
1.1.三元组重叠问题(统一实体或者实体对属于不同类别)
解决方法:关键在于对于每种关系类别建立模型(原因:实体重叠,关系必不重叠)
分为两种主流:(1)根据不同类别调整句向量的参数(句子的权重):如SMHSA、RSAN
(2)根据不同类别调整神经网络的参数(学习的参数):如CasRel、TPlinker
核心策略:针对每个类别的三元组训练一个分类器来识别,不同分类器的观察角度不一样
1.2.产生暴露偏差。(非新问题:级联的步骤之间存在传递误差)
暴露偏差:训练的过程分为两步,均用的真实结果;
测试过程的第二步依赖第一步的预测结果
(此问题类似于之前的error propagation problem )
解决方法:用并联模型(并联的模型之间可以互相纠错):如SMHSA、RSAN、TPLinker
分为两种主流(主要是Table-filling方法):(1)分为关系抽取和实体识别,通过实体识别纠正关系抽取的边界:如RSAN
(2)不同的并联结构:如TPLingker
1.3.数据噪声问题
数据噪声:来源于远程监督;远程监督通过将数据库中的关系三元组映射到大量语料中;
假设数据库中存在(subject1,relation1,object1) ,句子中含有的subject1和object1存在关系relation1
解决方法:减轻噪声数据的影响;
删除噪声数据;
修改噪声数据尽可能正确
核心策略:异常检测(对于每个句子产生一个句向量和训练的标签向量计算相似性,设定门限判断有误异常)
+标签修正(对于检测到的标记错误,计算和不同类别句子的聚类中心的距离,进而修正错误)
1.4.数据分布不平衡问题
2.目前已有的四种解决问题的思路:
Tagging:对于句子中的每个单词进行标记(缺陷:从单词级别考虑问题;忽略了实体内部的关联性)
Table-filling:(判断主体和客体的关系时;会形成小块关联区域;softmax难以有效捕获此区域)
Seq2seq:此方法大多用到copy mechanism(缺陷:三元组识别中主体和客体的顺序会有误差)
dependency tree(更多的考虑上下文的信息)
3.数据集来源
目前的关系抽取数据集来源于远程监督方法:通过对齐知识数据库和自然文本产生
缺点是:会有大量数据噪声。
目前CasRel等方法能去取得成功的原因在于;忽视了文本中的信息,只关注实体三元组本身的抽取
(可能产生的错误:对于开放领域句子“张三出生于合肥”可能会误判为工作地的关系类别)
4.思路启发(收到CasRel和关系三元组重叠问题的启发)
映射到嵌套命名实体识别领域
雷达探测器:包含了:雷达和雷达探测器两个实体