语言模型简史
语言模型用于计算句子的通顺程度。
:::info Probability(“吃了么”) > Probability(“了吃么”)
:::
- 2003年之前:纯统计
- 2013:循环神经网络 RNNLM
- 2017:Google 发布 Transformer(划时代的工作)
- OpenAI 延续性研究:
- 2018:GPT
- 2019:GPT2
- 2020:GPT3
- 2021 ~ 2022:人工打标 + 强化学习 instructGPT chatGPT
- 2023:GPT4
- Google 多样性研究:
- 2018:BERT
- 2019:T5
- 2020:GShard
- 2021 ~ 2022:公开数据微调,没打标 PaLM FLAN
- 2023:PaLM2
N-Gram 语言模型
- 优点:计算快,可解释。
- 缺点:窗口短语义不完整,ngram 过于稀疏、难以泛化
RNN 语言模型
- 优点:建模更长窗口,环节数据稀疏,不用处理平滑,带来额外收益。
- 缺点:实际窗口不是很长,不可解释。
- 优化:word2vec,设定上限。
Transformer 语言模型
- Resnet 残差网络
- Self Attention 自注意力
- Attention 注意力。
- 优点:窗口更长,模型层数更多,高度并行
- 缺点:计算量大
神经网络:万能函数拟合器
- 参数越多可以拟合越复杂的函数,大模型可以学到丰富的语言现象。
BERT vs GPT
- BERT:Mask Language Model, bidirectional
- GPT:Auto-Regressive Model,left-to-right
小模型变大
Scaling Law - 小模型变大的法则
- Chinchilla 计算最优模型
Facebook llama 模型训练
- 65B 模型比较符合 Chinchilla
语言大模型训练数据
- commonCrawl:网页爬取
- C4:网页爬取
- Github:代码
- Wikipedia
- Books
- ArXiv
- StackExchange
训练数据
- 除了数据量非常大,数据的质量,重复率和混合比例也非常重要。
In-Context Learning
- 通过零样本、少样本以 prompt 的方式提供给模型就能学会新的任务
- 与模型的规模关系很大
思维链 - Chain-of-Thought
- 让雨燕模型一步一步思考给出思考过程,可以显著提升模型在推理任务上的效果。
安全与对齐
HHH(Helpful,Honest,Harmless)
- ChatGPT 通过 SFT + RLHF 两阶段微调带来惊艳的效果。
深度强化学习简史
- RLHF 相比 SFT 更少引入“幻觉”问题,从句子整体判断合理性,数据率利用高
语言大模型评估
- 按任务
- 按学习方式
- 大模型评估大模型