Introduction
encoder-decoder框架取得巨大成功
预训练模型在Fine-Tuning的时候只能利用了平行语料,更好得到也是更多的还是单种的语料却没法用上
一些方法注意到了这个问题,加入了单语数据的信息,但是停留在word级别的信息(word embedding)
预训练的下游任务可以看作是从大规模的单语语料收集上下文信息然后作用于下游的NLP任务
那么从预训练得到的上下文信息是否真的有用?
由于预训练的时候,只有利用单语语料进行训练,但是NMT实际上是一个双语任务,需要覆盖两个语种
尤其是如果两个语言的语言结构语法有很大差异的时候,NMT的训练过程甚至会消除预训练得到的信息(灾难性遗忘?)所以直接使用pretrain+Fine-Tuning或许不是一个很好的方法,怎么利用预训练信息也成了一个问题。
于是基于上面的问题提出了新的APT模型
- dynamic fusion mechanism:
- 通过接受预训练带来的信息得到具体任务的表示信息
- 再用两个控制方法,让具体任务的表示信息加入了NMT的过程,即提供了海量的高质量语境信息
- knowledge distillation paradigm: