XLNet: Generalized Autoregressive Pretraining for Language Understanding 论文的中文翻译

本文是XLNet论文的全文翻译,转载注明出处和译者。

手机扫码阅读:

XLNet:广义自回归预训练语言模型 - 图1


由于GitHub目前不能很好渲染公式符号,建议直接查看PDF版翻译在线阅读

XLNet:广义自回归预训练语言模型

XLNet:广义自回归预训练语言模型 - 图2

摘要

由于具有双向上下文建模的能力,像BERT这样基于自动去噪的预训练语言模型比基于自回归的预训练语言模型的性能更好。然而,依赖于使用带掩码(masks)损坏的输入,BERT忽略了掩码位置之间的依赖性,由此受到了预训练-微调阶段不一致的影响。针对这些优点和缺点,我们提出了XLNet,一种广义自回归预训练方法,它(1)通过最大化输入序列的因式分解的所有排列的似然函数的期望来学习双向上下文,并且(2)并且通过其自回归方法,克服了BERT的局限性。此外,XLNet将最先进的自回归模型Transformer-XL的思想整合到预训练中。实验表明,XLNet在20个任务上常大幅度优于BERT的表现,并在18个任务中实现最先进的结果,包括问答、自然语言推理、情感分析和文档排名(注1:预训练的模型和代码可在 https://github.com/zihangdai/xlnet 获得)。


XLNet 相关资源

推荐阅读 XLNet Generalized Autoregressive Pretraining for Language Understanding