此部分正在大力开发中。

本节由著名的基础法学硕士的收集和摘要组成。(数据取自论文与代码(在新选项卡中打开)以及赵等人最近的工作。(2023)(在新选项卡中打开).

Models

Model Release Date Description
BERT(opens in a new tab) 2018 Transformer 的双向编码器表示
GPT(opens in a new tab) 2018 通过生成预训练提高语言理解
RoBERTa(opens in a new tab) 2019 稳健优化的 BERT 预训练方法
GPT-2(opens in a new tab) 2019 语言模型是无监督的多任务学习者
T5(opens in a new tab) 2019 使用统一的文本到文本转换器探索迁移学习的局限性
BART(opens in a new tab) 2019 用于自然语言生成、翻译和理解的去噪序列到序列预训练
ALBERT(opens in a new tab) 2019 用于语言表示自监督学习的 Lite BERT
XLNet(opens in a new tab) 2019 用于语言理解和生成的广义自回归预训练
CTRL(opens in a new tab) 2019 CTRL:用于可控生成的条件变压器语言模型
ERNIE(opens in a new tab) 2019 ERNIE:通过知识整合增强表征
GShard(opens in a new tab) 2020 GShard:通过条件计算和自动分片扩展巨型模型
GPT-3(opens in a new tab) 2020 语言模型是小样本学习者
LaMDA(opens in a new tab) 2021 LaMDA:对话应用程序的语言模型
PanGu-α(opens in a new tab) 2021 PanGu-α:具有自动并行计算的大规模自回归预训练中文语言模型
mT5(opens in a new tab) 2021 mT5:大规模多语言预训练文本到文本转换器
CPM-2(opens in a new tab) 2021 CPM-2:大规模、经济高效的预训练语言模型
T0(opens in a new tab) 2021 多任务提示训练可实现零样本任务泛化
HyperCLOVA(opens in a new tab) 2021 大规模语言模型能带来哪些改变?HyperCLOVA 深入研究:数十亿规模的韩国生成式预训练 Transformer
Codex(opens in a new tab) 2021 评估在代码上训练的大型语言模型
ERNIE 3.0(opens in a new tab) 2021 ERNIE 3.0:语言理解和生成的大规模知识增强预训练
Jurassic-1(opens in a new tab) 2021 Jurassic-1:技术细节和评估
FLAN(opens in a new tab) 2021 微调语言模型是零样本学习者
MT-NLG(opens in a new tab) 2021 使用 DeepSpeed 和 Megatron 训练大型生成语言模型 Megatron-Turing NLG 530B
Yuan 1.0(opens in a new tab) 2021 Yuan 1.0:零样本和少样本学习中的大规模预训练语言模型
WebGPT(opens in a new tab) 2021 WebGPT:带有人工反馈的浏览器辅助问答
Gopher(opens in a new tab) 2021 扩展语言模型:训练 Gopher 的方法、分析和见解
ERNIE 3.0 Titan(opens in a new tab) 2021 ERNIE 3.0 Titan:探索更大规模的语言理解和生成的知识增强预训练
GLaM(opens in a new tab) 2021 GLaM:利用混合专家有效扩展语言模型
InstructGPT(opens in a new tab) 2022 训练语言模型遵循人类反馈的指令
GPT-NeoX-20B(opens in a new tab) 2022 GPT-NeoX-20B:开源自回归语言模型
AlphaCode(opens in a new tab) 2022 使用 AlphaCode 生成竞赛级代码
CodeGen(opens in a new tab) 2022 CodeGen:一种开放的大型语言模型,用于多轮程序综合的代码
Chinchilla(opens in a new tab) 2022 表明,对于计算预算,最佳性能不是通过最大的模型实现的,而是通过在更多数据上训练的较小模型实现的。
Tk-Instruct(opens in a new tab) 2022 Super-NaturalInstructions:通过 1600 多个 NLP 任务的声明性指令进行泛化
UL2(opens in a new tab) 2022 UL2:统一语言学习范式
PaLM(opens in a new tab) 2022 PaLM:通过路径扩展语言建模
OPT(opens in a new tab) 2022 OPT:开放预训练的 Transformer 语言模型
BLOOM(opens in a new tab) 2022 BLOOM:176B 参数的开放访问多语言语言模型
GLM-130B(opens in a new tab) 2022 GLM-130B:开放式双语预训练模型
AlexaTM(opens in a new tab) 2022 AlexaTM 20B:使用大规模多语言 Seq2Seq 模型进行少样本学习
Flan-T5(opens in a new tab) 2022 扩展指令-微调语言模型
Sparrow(opens in a new tab) 2022 通过有针对性的人类判断来改善对话代理的一致性
U-PaLM(opens in a new tab) 2022 T通过 0.1% 的额外计算超越缩放定律
mT0(opens in a new tab) 2022 通过多任务微调进行跨语言泛化
Galactica(opens in a new tab) 2022 Galactica: 大型科学语言模型
OPT-IML(opens in a new tab) 2022 OPT-IML:通过泛化的视角扩展语言模型指令元学习
LLaMA(opens in a new tab) 2023 LLaMA:开放高效的基础语言模型
GPT-4(opens in a new tab) 2023 GPT-4 技术报告
PanGu-Σ(opens in a new tab) 2023 PanGu-Σ:面向稀疏异构计算的万亿参数语言模型
BloombergGPT(opens in a new tab) 2023 BloombergGPT:大型金融语言模型
PaLM 2(opens in a new tab) 2023 一种比其前身 PaLM 具有更好的多语言和推理能力并且计算效率更高的语言模型。