语言模型简史

语言模型用于计算句子的通顺程度。

:::info Probability(“吃了么”) > Probability(“了吃么”)

:::

  • 2003年之前:纯统计
  • 2013:循环神经网络 RNNLM
  • 2017:Google 发布 Transformer(划时代的工作)
  • OpenAI 延续性研究:
    • 2018:GPT
    • 2019:GPT2
    • 2020:GPT3
    • 2021 ~ 2022:人工打标 + 强化学习 instructGPT chatGPT
    • 2023:GPT4
  • Google 多样性研究:
    • 2018:BERT
    • 2019:T5
    • 2020:GShard
    • 2021 ~ 2022:公开数据微调,没打标 PaLM FLAN
    • 2023:PaLM2

N-Gram 语言模型

  • 优点:计算快,可解释。
  • 缺点:窗口短语义不完整,ngram 过于稀疏、难以泛化

RNN 语言模型

  • 优点:建模更长窗口,环节数据稀疏,不用处理平滑,带来额外收益。
  • 缺点:实际窗口不是很长,不可解释。
  • 优化:word2vec,设定上限。

Transformer 语言模型

  • Resnet 残差网络
  • Self Attention 自注意力
  • Attention 注意力。
  • 优点:窗口更长,模型层数更多,高度并行
  • 缺点:计算量大

神经网络:万能函数拟合器

  • 参数越多可以拟合越复杂的函数,大模型可以学到丰富的语言现象。

BERT vs GPT

  • BERT:Mask Language Model, bidirectional
  • GPT:Auto-Regressive Model,left-to-right

小模型变大

Scaling Law - 小模型变大的法则

  • Chinchilla 计算最优模型

Facebook llama 模型训练

  • 65B 模型比较符合 Chinchilla

语言大模型训练数据

  • commonCrawl:网页爬取
  • C4:网页爬取
  • Github:代码
  • Wikipedia
  • Books
  • ArXiv
  • StackExchange

训练数据

  • 除了数据量非常大,数据的质量,重复率和混合比例也非常重要。

In-Context Learning

  • 通过零样本、少样本以 prompt 的方式提供给模型就能学会新的任务
  • 与模型的规模关系很大

思维链 - Chain-of-Thought

  • 让雨燕模型一步一步思考给出思考过程,可以显著提升模型在推理任务上的效果。

安全与对齐

HHH(Helpful,Honest,Harmless)

  • ChatGPT 通过 SFT + RLHF 两阶段微调带来惊艳的效果。

深度强化学习简史

  • RLHF 相比 SFT 更少引入“幻觉”问题,从句子整体判断合理性,数据率利用高

语言大模型评估

  • 按任务
  • 按学习方式
  • 大模型评估大模型