Introduction

encoder-decoder框架取得巨大成功
预训练模型在Fine-Tuning的时候只能利用了平行语料,更好得到也是更多的还是单种的语料却没法用上
一些方法注意到了这个问题,加入了单语数据的信息,但是停留在word级别的信息(word embedding)
预训练的下游任务可以看作是从大规模的单语语料收集上下文信息然后作用于下游的NLP任务
那么从预训练得到的上下文信息是否真的有用?

由于预训练的时候,只有利用单语语料进行训练,但是NMT实际上是一个双语任务,需要覆盖两个语种
尤其是如果两个语言的语言结构语法有很大差异的时候,NMT的训练过程甚至会消除预训练得到的信息(灾难性遗忘?)所以直接使用pretrain+Fine-Tuning或许不是一个很好的方法,怎么利用预训练信息也成了一个问题。

于是基于上面的问题提出了新的APT模型

  1. dynamic fusion mechanism:
    1. 通过接受预训练带来的信息得到具体任务的表示信息
    2. 再用两个控制方法,让具体任务的表示信息加入了NMT的过程,即提供了海量的高质量语境信息
  2. knowledge distillation paradigm:
    1. 使用知识蒸馏,从预训练到翻译模型

      BackGround

      Encoder-Decoder

      这里的对encoder-encoder框架进行了介绍
      但是似乎和我在Attention is All you Need 里的理解不太一样

      Pre-train

      目前的pretrain策略一般是基于单语语料,然后通过预测下一个词或者是mask然后补全来实现
      同时对于pretrain model的使用一般是使用pretrain model的数据初始化模型参数,这个对于NMT任务这种双语料的或许并不适用

      Approach

      Dynamic Fusion Mechanism