此部分正在大力开发中。
本节由著名的基础法学硕士的收集和摘要组成。(数据取自论文与代码(在新选项卡中打开)以及赵等人最近的工作。(2023)(在新选项卡中打开).
Models
Model | Release Date | Description |
---|---|---|
BERT(opens in a new tab) | 2018 | Transformer 的双向编码器表示 |
GPT(opens in a new tab) | 2018 | 通过生成预训练提高语言理解 |
RoBERTa(opens in a new tab) | 2019 | 稳健优化的 BERT 预训练方法 |
GPT-2(opens in a new tab) | 2019 | 语言模型是无监督的多任务学习者 |
T5(opens in a new tab) | 2019 | 使用统一的文本到文本转换器探索迁移学习的局限性 |
BART(opens in a new tab) | 2019 | 用于自然语言生成、翻译和理解的去噪序列到序列预训练 |
ALBERT(opens in a new tab) | 2019 | 用于语言表示自监督学习的 Lite BERT |
XLNet(opens in a new tab) | 2019 | 用于语言理解和生成的广义自回归预训练 |
CTRL(opens in a new tab) | 2019 | CTRL:用于可控生成的条件变压器语言模型 |
ERNIE(opens in a new tab) | 2019 | ERNIE:通过知识整合增强表征 |
GShard(opens in a new tab) | 2020 | GShard:通过条件计算和自动分片扩展巨型模型 |
GPT-3(opens in a new tab) | 2020 | 语言模型是小样本学习者 |
LaMDA(opens in a new tab) | 2021 | LaMDA:对话应用程序的语言模型 |
PanGu-α(opens in a new tab) | 2021 | PanGu-α:具有自动并行计算的大规模自回归预训练中文语言模型 |
mT5(opens in a new tab) | 2021 | mT5:大规模多语言预训练文本到文本转换器 |
CPM-2(opens in a new tab) | 2021 | CPM-2:大规模、经济高效的预训练语言模型 |
T0(opens in a new tab) | 2021 | 多任务提示训练可实现零样本任务泛化 |
HyperCLOVA(opens in a new tab) | 2021 | 大规模语言模型能带来哪些改变?HyperCLOVA 深入研究:数十亿规模的韩国生成式预训练 Transformer |
Codex(opens in a new tab) | 2021 | 评估在代码上训练的大型语言模型 |
ERNIE 3.0(opens in a new tab) | 2021 | ERNIE 3.0:语言理解和生成的大规模知识增强预训练 |
Jurassic-1(opens in a new tab) | 2021 | Jurassic-1:技术细节和评估 |
FLAN(opens in a new tab) | 2021 | 微调语言模型是零样本学习者 |
MT-NLG(opens in a new tab) | 2021 | 使用 DeepSpeed 和 Megatron 训练大型生成语言模型 Megatron-Turing NLG 530B |
Yuan 1.0(opens in a new tab) | 2021 | Yuan 1.0:零样本和少样本学习中的大规模预训练语言模型 |
WebGPT(opens in a new tab) | 2021 | WebGPT:带有人工反馈的浏览器辅助问答 |
Gopher(opens in a new tab) | 2021 | 扩展语言模型:训练 Gopher 的方法、分析和见解 |
ERNIE 3.0 Titan(opens in a new tab) | 2021 | ERNIE 3.0 Titan:探索更大规模的语言理解和生成的知识增强预训练 |
GLaM(opens in a new tab) | 2021 | GLaM:利用混合专家有效扩展语言模型 |
InstructGPT(opens in a new tab) | 2022 | 训练语言模型遵循人类反馈的指令 |
GPT-NeoX-20B(opens in a new tab) | 2022 | GPT-NeoX-20B:开源自回归语言模型 |
AlphaCode(opens in a new tab) | 2022 | 使用 AlphaCode 生成竞赛级代码 |
CodeGen(opens in a new tab) | 2022 | CodeGen:一种开放的大型语言模型,用于多轮程序综合的代码 |
Chinchilla(opens in a new tab) | 2022 | 表明,对于计算预算,最佳性能不是通过最大的模型实现的,而是通过在更多数据上训练的较小模型实现的。 |
Tk-Instruct(opens in a new tab) | 2022 | Super-NaturalInstructions:通过 1600 多个 NLP 任务的声明性指令进行泛化 |
UL2(opens in a new tab) | 2022 | UL2:统一语言学习范式 |
PaLM(opens in a new tab) | 2022 | PaLM:通过路径扩展语言建模 |
OPT(opens in a new tab) | 2022 | OPT:开放预训练的 Transformer 语言模型 |
BLOOM(opens in a new tab) | 2022 | BLOOM:176B 参数的开放访问多语言语言模型 |
GLM-130B(opens in a new tab) | 2022 | GLM-130B:开放式双语预训练模型 |
AlexaTM(opens in a new tab) | 2022 | AlexaTM 20B:使用大规模多语言 Seq2Seq 模型进行少样本学习 |
Flan-T5(opens in a new tab) | 2022 | 扩展指令-微调语言模型 |
Sparrow(opens in a new tab) | 2022 | 通过有针对性的人类判断来改善对话代理的一致性 |
U-PaLM(opens in a new tab) | 2022 | T通过 0.1% 的额外计算超越缩放定律 |
mT0(opens in a new tab) | 2022 | 通过多任务微调进行跨语言泛化 |
Galactica(opens in a new tab) | 2022 | Galactica: 大型科学语言模型 |
OPT-IML(opens in a new tab) | 2022 | OPT-IML:通过泛化的视角扩展语言模型指令元学习 |
LLaMA(opens in a new tab) | 2023 | LLaMA:开放高效的基础语言模型 |
GPT-4(opens in a new tab) | 2023 | GPT-4 技术报告 |
PanGu-Σ(opens in a new tab) | 2023 | PanGu-Σ:面向稀疏异构计算的万亿参数语言模型 |
BloombergGPT(opens in a new tab) | 2023 | BloombergGPT:大型金融语言模型 |
PaLM 2(opens in a new tab) | 2023 | 一种比其前身 PaLM 具有更好的多语言和推理能力并且计算效率更高的语言模型。 |