关系抽取是信息抽取领域的一项基础性任务。抽取的关系三元组可以用来构建垂直领域知识图谱。然而,从非结构化文本中抽取关系三元组是一项极具挑战性的任务,这项任务引起了广泛的关注。
    早期的工作主要是基于规则方法。关系抽取被分为两个独立的步骤。先从给定的句子中抽取实体,再对实体进行关系分类。然而,这样做的缺点是,忽视了两个步骤之间的内在关联,导致两个步骤间存在误差积累。关系抽取的步骤将会被抽取的冗余实体干扰,导致一些没有关系的实体对被分为关系三元组。
    为了减小误差的积累,联合抽取的模型引起广泛的兴趣。先是出现了基于特征工程的方法,这些方法过于依赖自然语言处理工具。
    之后,大量基于神经网络的方法被提出。在这些工作中,许多新的网络被提出来用于抽取文本的向量化特征。这些方法中,值得注意的是,郑等人提出的Noveltagging方法。这种方法将关系抽取任务转化为序列标注任务。然而,其弊端是每个实体只能属于一个关系三元组。
    而在关系抽取任务中,一个关键的挑战是不同的关系三元组中存在实体重叠。如图所示,曾等人注意到了这个问题,按照实体重叠的程度将所有的句子分为Normal、SEO和EPO三个类别。为了解决这个问题,基于seq2seq模型的方法被提出。CopyRE采用复制机制来处理重叠三元组问题。CopyMTL考虑到CopyRE在实体抽取中存在的实体复制和多词汇实体问题,提出了一个multi-task framework。OrderRL考虑到extraction order对于关系抽取的重要性,在CopyRE的基础上采用了强化学习的方法。另一个值得注意的方法是Table-filling方法,此类方法通过分析word pairs之间的关系来确定关系三元组。Graphrel通过relation-weighted图卷积(GCN)的方法来分析word pairs的关系进而抽取关系三元组。SMHSA考虑到在不同的关系类别,句子的向量化表示不同,进而确定该关系类别条件下word pairs之间的关系。同样是考虑到不同的关系类别,RSAN采用了relation-based attention mechanism来对不同类别下的句向量进行重构。尽管这些方法取得了很好的效果,但是Bi-LSTM编码器顺序化的操作存在长度约束,无法很好地考虑文本的全局信息。并且,SMHSA和RSAN对于不同的关系类别,生成不同的句向量表示。
    BERT采用的Transformer编码器能够很好地抽取文本的全局特征。最近,基于预训练模型BERT的方法在各种自然语言任务中取得了较好的效果。在预训练模型BERT的基础上,CasRel采用了新的标记原理,重新考虑了三元组实体重叠问题。此模型将关系抽取分为两个步骤进行:抽取句子中所有可能的主体,针对其中每个候选主体,在不同关系类别下找到其对应的客体。句子的上下文信息在两个步骤均能帮助其进行抽取。在两个公开数据集上,此框架也取得了相当好的效果。在考虑了上下文信息的同时,上下文信息中存在部分与任务无关的信息。这些信息成为了文本的内在噪声,如何对文本的内在噪声进行过滤成为我们工作的出发点。
    对于句中的任意词向量h,我们可以通过一组互不相关的基底向量和一组权重来表示。我们希望过滤掉词向量h中部分对任务不重要的信息,得到新的词向量。我们先找到一组简化但是重要的信息编码为基底向量,再计算其相应的权重,进而表示简化的任务相关词向量。此时,关系标签信息引起了我们的注意。在图中可看出,和句子的上下文信息一样,经过相同的编码器,关系标签信息和任务存在很强的相关性。为了计算关系标签向量对应的权重。我们从注意力机制中得到启发,设计了标签注意力。我们的工作是希望用关系标签向量来解释句子中的每个单词,对每个单词得到新的词向量表示。新的词向量表示本身就具有各种和任务相关的关系类别的特征。之前的工作(RSAN、SMHSA),对于每种关系类别得到不同的句向量表示,和这些工作不同,我们希望对每种关系类别得到的新的句向量表示是相同的。我们的主要贡献在下文中描述:
    (1) 我们注意到文本的词向量中存在一些与任务相关性很小的噪声信息。我们提出了Label-Attention机制。新的方法能够用标签信息来解释句子中的每个单词,,得到一组新的句向量表示。
    (2) 我们在不同的框架(SMHSA和CasRel)中采用了新的方法。我们将详细介绍采用了Label-Attention机制的LA-CasRel。
    (3) 我们在两个广泛应用的数据集(NYT和WebNLG)中做了大量实验。采用了Label-Attention机制的方法均得到不同程度的提升。在NYT和WebNLG上,LA-CasRel的F1-score分别达到了91.7和92.4,更新了最优模型的效果。