2020_Shang_Are Noisy Sentences Useless for Distant Supervised Relation Extraction?

1.解决问题

1.1 三元组实体重叠问题
~~ 解决方法:根据不同类别调整学习(原因:实体重叠,关系不重叠)
分为两种主流:(1)根据不同类别调整句向量的参数:如SMHSA、RSAN
(2)根据不同类别调整神经网络的参数:如CasRel
1.2 实体识别和关系分类两步骤之间的冗余操作(级联)
解决方法:并联;单步骤结构
(级联(在pipelined方法和jointmodel中均存在):产生冗余操作;暴露偏差)~~
1.3 对于关系抽取任务中存在的大量噪声语句(关系抽取缺少标签数据->远程监督->方法过于粗糙,产生的语句存在噪声)
解决方法:减轻噪声数据的影响;删除噪声数据;修改噪声数据尽可能正确

2.现有方法

2018~2019此类问题有一段中空期
joint模型(理解不是很深入):基于特征工程和基于神经网络结构
存在2018年的CopyRe:解决关系三元组重叠问题

3.主要挑战

3.1 噪声数据识别(即异常检测:Noise Detecter)
Are Noisy Sentences Useless for Distant Supervised Relation Extraction?
3.2 Label Generator(high-confidence relation labels)
产生正确的标签(对于集群中心的距离)

4.设计方法(本质上是异常检测)

4.1
创新点:改正含有错误标签的语句
出发点:
关键点:得到noise句子;改正正样本标签

4.2
PCNN得到句向量表示(注意:在RSAN中也通过特定方法得到句子的向量化表示)
和标签计算相似度,进而确定noise
通过和聚类中心的距离来得到正确的标签(大数定律;正态分布)