Insight & target problem

PLM的训练需要非常大的语料,获得了大量的外部知识
但是在下游任务使用的时候,很多都不太必要

所以作者希望有一种简单高效的训练方式。
之前对预训练的加速一直停留在训练上,包括大Batch,硬件资源等等

Solution

缩减预训练语料。

  1. 用BM25算法,利用下游任务相关的数据作为Query去找预训练语料库里的相关语料,构建Corpus1
  2. 在Copurs1上做MLM,在下游任务语料Corpus2上做MLM和下游任务。同时训练

由于Corpus1的大小远小于All Pretrain Data Corpus,所以速度提升效果拔群。同时因为数据的相关性,所以性能没有衰减。

当然了,假如要跨任务等等,肯定这么训练的模型不够灵活,需要重新训练,但是他的加速太香了

Highlight

Others