关系抽取_论文笔记5_0221_Noisy Sentences - 《自然语言处理NLP》

2020_Shang_Are Noisy Sentences Useless for Distant Supervised Relation Extraction?

2020_Shang_Are Noisy Sentences Useless for Distant Supervised Relation Extraction?

1.解决问题

~~1.1 三元组实体重叠问题~~
~~ 解决方法：根据不同类别调整学习（原因：实体重叠，关系不重叠）
分为两种主流：（1）根据不同类别调整句向量的参数：如SMHSA、RSAN
（2）根据不同类别调整神经网络的参数：如CasRel
1.2 实体识别和关系分类两步骤之间的冗余操作（级联）
解决方法：并联；单步骤结构
（级联（在pipelined方法和jointmodel中均存在）：产生冗余操作；暴露偏差）~~
1.3 对于关系抽取任务中存在的大量噪声语句（关系抽取缺少标签数据->远程监督->方法过于粗糙，产生的语句存在噪声）
解决方法：减轻噪声数据的影响；删除噪声数据；修改噪声数据尽可能正确

2.现有方法

2018~2019此类问题有一段中空期
joint模型（理解不是很深入）：基于特征工程和基于神经网络结构
存在2018年的CopyRe：解决关系三元组重叠问题

3.主要挑战

3.1 噪声数据识别（即异常检测：Noise Detecter）
Are Noisy Sentences Useless for Distant Supervised Relation Extraction?
3.2 Label Generator（high-confidence relation labels）
产生正确的标签（对于集群中心的距离）

4.设计方法（本质上是异常检测）

4.1
创新点：改正含有错误标签的语句
出发点：
关键点：得到noise句子；改正正样本标签

4.2
PCNN得到句向量表示（注意：在RSAN中也通过特定方法得到句子的向量化表示）
和标签计算相似度，进而确定noise
通过和聚类中心的距离来得到正确的标签（大数定律；正态分布）