21.11.16 NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework

浏览 186 扫码分享 2023-03-22 13:51:04

Insight & target problem
Solution
Highlight
Others

Insight & target problem

PLM的训练需要非常大的语料，获得了大量的外部知识
但是在下游任务使用的时候，很多都不太必要

所以作者希望有一种简单高效的训练方式。
之前对预训练的加速一直停留在训练上，包括大Batch，硬件资源等等

Solution

缩减预训练语料。

用BM25算法，利用下游任务相关的数据作为Query去找预训练语料库里的相关语料，构建Corpus1
在Copurs1上做MLM，在下游任务语料Corpus2上做MLM和下游任务。同时训练

由于Corpus1的大小远小于All Pretrain Data Corpus，所以速度提升效果拔群。同时因为数据的相关性，所以性能没有衰减。

当然了，假如要跨任务等等，肯定这么训练的模型不够灵活，需要重新训练，但是他的加速太香了

Highlight

Others

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录