Insight & target problem
PLM的训练需要非常大的语料,获得了大量的外部知识
但是在下游任务使用的时候,很多都不太必要
所以作者希望有一种简单高效的训练方式。
之前对预训练的加速一直停留在训练上,包括大Batch,硬件资源等等
Solution
缩减预训练语料。
- 用BM25算法,利用下游任务相关的数据作为Query去找预训练语料库里的相关语料,构建Corpus1
- 在Copurs1上做MLM,在下游任务语料Corpus2上做MLM和下游任务。同时训练
由于Corpus1的大小远小于All Pretrain Data Corpus,所以速度提升效果拔群。同时因为数据的相关性,所以性能没有衰减。
当然了,假如要跨任务等等,肯定这么训练的模型不够灵活,需要重新训练,但是他的加速太香了