前言:最近 LLM 大火,相关领域熟人都想往这个方向靠,好几个朋友咨询了这块,也有帮做模拟面试。最近有个哥们让我推荐对这个领域整体快速了解的资料。于是我就花了些时间整理资料,希望可以俯瞰当前 LLM 领域,能够给个整体的印象,如若对某个细分板块感兴趣,读者也可以找更深入的资料。
本文假设读者有一定相关领域的知识,至少是机器学习,深度学习,或者数据科学的经验。
关注文底公号二维码,回复 llm 有整理的 pdf 包,不包含一些网页。

LLM 全景图(The Landscape of LLM) - 知乎 - 图1

Overview 概观

前沿模型观摩

大概看看现在最好能做到什么程度,虽然细节干货少。

接着按不同模块分别推荐些我能想到的比较重要入门论文和资料,精力有限,肯定是挂一漏万,欢迎指正完善。

预训练

整体

预训练可先看一些经典基座模型训练流程:

  • GPT3 论文:不用多说
  • LLAMA:经历各种检验最靠谱英文模型,很多训练细节值得参考
  • BloombergGPT:虽是金融领域模型,但各种思想都类似,很踏实,特别给训领域模型借鉴
  • Transformer Math 101:很干的一篇关于训练中各种计算的博客,扎实
  • [可选] 谷歌系的:PaLMFlan-PaLM:一个预训练,一个指令微调,大公司还是挺多insight可学习
  • [可选] BLOOMBLOOMZ:可以大概看看,比较糙,特别是和大公司几篇对比

数据相关

训练相关

Tokenization

SFT(Supervised FineTuning)/Instruction Tuning

就是搜集到指令数据,然后直接 finetune 训练,难点在于在于怎么收集到较好的SFT数据。

主要可分成下面几种方法:

  • 人工标注写
  • 基于模板
  • 基于开源共享数据
  • 网上相似数据爬取
  • OpenAI API接口通过 Prompt 工程构建

SFT 模型

  • 基于模板:
  • FLAN 模型:前 ChatGPT 时代,可以看看如何基于模板构建一些传统指令数据,还出了v2
  • 基于 OpenAI API 和开源共享数据(后 ChatGPT 时代):
  • Exploring the Impact of Instruction Data Scaling on Large Language Models
  • Towards Better Instruction Following Language Models for Chinese
  • 直接从 ChatGPT 和 GPT4 抓数据来训SFT:AlpacaVicunaGPT4ALL
  • 中文这块:Belle两篇论文也可以简单看看,看怎么构建数据(比如Self-Instruct
  • 基于网络爬取数据及人工标注
  • LIMA: Less Is More for Alignment:怎么构建一个多样化的SFT数据集

RLHF 部分

建议给 OpenAI 在这块的努力都刷一遍,会有很清晰了解,各种细节。现在大多引 22 年 InstructGPT,但 OpenAI 这整套流程也都是一步步完善出来的。最早期在 GPT2 就探索用 Human Preference,中间如何尝试、遇到什么问题、以及怎么解决都写得挺清楚,甚至还专门写了怎么培训标注人员,当时 OpenAI 是真的挺 Open:

推理使用

解码方法

Prompt Engineering

Zero-shot 和 Few-Shot 给 GPT3 那篇看完就差不多懂了,这里列些较经典方法

反思以及其他高阶应用

  • Reflexion: Language Agents with Verbal Reinforcement Learning:提出反思系统,模型能对自己之前的结果进行反思,之后再做出修改
  • AutoGPT介绍:基于 GPT API 非常酷的应用,通过设计维护几个GPT角色,还有Memory系统,给AutoGPT一个目标和初始任务,就能让它成为一个无情的做任务机器人,完成任务,创造新任务,排好优先级,继续做任务
  • [可选] Generative Agents: Interactive Simulacra of Human Behavior:写 AutoGPT 的时候莫名让我想起这篇,虽然是讲用GPT做游戏任务的思考机器,但是本身里面就涉及到大量应用相关的设计
  • [可选] Large Language Models as Tool Makers:idea 也很酷,维护几个GPT角色,让一个做工具,一个使用工具解决问题,还有个判断什么时候需要做新工具,也是系统的设计

其他

Tools (API 调用)

有些能力调外部接口会容易很多,包括最新信息获取

Code Related

Math Related

因为数学涉及到模型的推理能力,所以一般认为较重要

[**可选] GPT API相关应用**

[**可选] 损失函数**

LLM 全景图(The Landscape of LLM) - 知乎 - 图2

公号二维码