关系抽取_阅读总结1_0228 - 《自然语言处理NLP》

1.问题分类：三元组重叠问题；数据噪声问题；暴露偏差问题（论文阅读量：74篇（20篇细读））

1.1.三元组重叠问题（统一实体或者实体对属于不同类别）
解决方法：关键在于对于每种关系类别建立模型（原因：实体重叠，关系必不重叠）
分为两种主流：（1）根据不同类别调整句向量的参数（句子的权重）：如SMHSA、RSAN
（2）根据不同类别调整神经网络的参数（学习的参数）：如CasRel、TPlinker
核心策略：针对每个类别的三元组训练一个分类器来识别，不同分类器的观察角度不一样

1.2.产生暴露偏差。（非新问题：级联的步骤之间存在传递误差）
暴露偏差：训练的过程分为两步，均用的真实结果；
测试过程的第二步依赖第一步的预测结果
（此问题类似于之前的error propagation problem ）
解决方法：用并联模型（并联的模型之间可以互相纠错）：如SMHSA、RSAN、TPLinker
分为两种主流（主要是Table-filling方法）：（1）分为关系抽取和实体识别，通过实体识别纠正关系抽取的边界：如RSAN
（2）不同的并联结构：如TPLingker

1.3.数据噪声问题
数据噪声：来源于远程监督；远程监督通过将数据库中的关系三元组映射到大量语料中；
假设数据库中存在(subject1,relation1,object1) ，句子中含有的subject1和object1存在关系relation1
解决方法：减轻噪声数据的影响；
删除噪声数据；
修改噪声数据尽可能正确
核心策略：异常检测（对于每个句子产生一个句向量和训练的标签向量计算相似性，设定门限判断有误异常）
+标签修正（对于检测到的标记错误，计算和不同类别句子的聚类中心的距离，进而修正错误）

1.4.数据分布不平衡问题

2.目前已有的四种解决问题的思路：
Tagging：对于句子中的每个单词进行标记（缺陷：从单词级别考虑问题；忽略了实体内部的关联性）
Table-filling：（判断主体和客体的关系时；会形成小块关联区域；softmax难以有效捕获此区域）
Seq2seq：此方法大多用到copy mechanism（缺陷：三元组识别中主体和客体的顺序会有误差）
dependency tree（更多的考虑上下文的信息）

3.数据集来源
目前的关系抽取数据集来源于远程监督方法：通过对齐知识数据库和自然文本产生
缺点是：会有大量数据噪声。
目前CasRel等方法能去取得成功的原因在于；忽视了文本中的信息，只关注实体三元组本身的抽取
（可能产生的错误：对于开放领域句子“张三出生于合肥”可能会误判为工作地的关系类别）

4.思路启发（收到CasRel和关系三元组重叠问题的启发）
映射到嵌套命名实体识别领域
雷达探测器：包含了：雷达和雷达探测器两个实体