Insight & target problem

提出了一种针对实体的MT预训练方法

之前的工作都是普通的Denoising Auto Encoder

Solution

先抽取出实体名字,然后在wiki上就有其他语言的对应词,于是对于句子X
里面含有x1,x2,x3实体,用wiki可以得到另一个语言的名字y1,y2,y3
然后作为一个denoising任务,把原文的x1,x2,x3替换,然后就可以快乐的恢复原文

当然为了保证Nosie比例,当名词过少的时候,会用MASK来加噪声保证35%的MASK比例

最后用一个多任务学习,同时MT和Denoise

Highlight

Others