1.问题分类:三元组重叠问题;数据噪声问题;暴露偏差问题(论文阅读量:74篇(20篇细读))

    1.1.三元组重叠问题(统一实体或者实体对属于不同类别)
    解决方法:关键在于对于每种关系类别建立模型(原因:实体重叠,关系必不重叠)
    分为两种主流:(1)根据不同类别调整句向量的参数(句子的权重):如SMHSA、RSAN
    (2)根据不同类别调整神经网络的参数(学习的参数):如CasRel、TPlinker
    核心策略:针对每个类别的三元组训练一个分类器来识别,不同分类器的观察角度不一样

    1.2.产生暴露偏差。(非新问题:级联的步骤之间存在传递误差)
    暴露偏差:训练的过程分为两步,均用的真实结果;
    测试过程的第二步依赖第一步的预测结果
    (此问题类似于之前的error propagation problem )
    解决方法:用并联模型(并联的模型之间可以互相纠错):如SMHSA、RSAN、TPLinker
    分为两种主流(主要是Table-filling方法):(1)分为关系抽取和实体识别,通过实体识别纠正关系抽取的边界:如RSAN
    (2)不同的并联结构:如TPLingker

    1.3.数据噪声问题
    数据噪声:来源于远程监督;远程监督通过将数据库中的关系三元组映射到大量语料中;
    假设数据库中存在(subject1,relation1,object1) ,句子中含有的subject1和object1存在关系relation1
    解决方法:减轻噪声数据的影响;
    删除噪声数据;
    修改噪声数据尽可能正确
    核心策略:异常检测(对于每个句子产生一个句向量和训练的标签向量计算相似性,设定门限判断有误异常)
    +标签修正(对于检测到的标记错误,计算和不同类别句子的聚类中心的距离,进而修正错误)

    1.4.数据分布不平衡问题

    2.目前已有的四种解决问题的思路:
    Tagging:对于句子中的每个单词进行标记(缺陷:从单词级别考虑问题;忽略了实体内部的关联性)
    Table-filling:(判断主体和客体的关系时;会形成小块关联区域;softmax难以有效捕获此区域)
    Seq2seq:此方法大多用到copy mechanism(缺陷:三元组识别中主体和客体的顺序会有误差)
    dependency tree(更多的考虑上下文的信息)

    3.数据集来源
    目前的关系抽取数据集来源于远程监督方法:通过对齐知识数据库和自然文本产生
    缺点是:会有大量数据噪声。
    目前CasRel等方法能去取得成功的原因在于;忽视了文本中的信息,只关注实体三元组本身的抽取
    (可能产生的错误:对于开放领域句子“张三出生于合肥”可能会误判为工作地的关系类别)

    4.思路启发(收到CasRel和关系三元组重叠问题的启发)
    映射到嵌套命名实体识别领域
    雷达探测器:包含了:雷达和雷达探测器两个实体