定义

Large Language model

用于自然语言相关任务的深度学习模型

通过大量文本进行无监督学习,借助海量文本数据,模型能更多的了解单词与上下文的关系,从而更理解文本的含义,生成更准确的“预测

大语言模型的【大】

主要体现在2个方面:

1、训练数据大

2、参数数据大(参数=模型的变量,可以理解为模型学到的知识)

参数决定了模型如何对输入数据做出反应 一般而言,更多的训练数据+更好的算力,能带来更好的模型表现、更广泛的能力 以GPT为例【1.0=1.17亿参数】、【2.0=15亿参数】、【3.0=1750亿参数】

为什么会“胡编乱造”及一些解决思路

人工智能机器学习面具之下的本质仍然是统计(百度百科说马斯克说的emmm)
目前生成式AI的逻辑是根据上下文以及之前预训练的参数,按概率来“预测”最大概率应该回复的内容 1、既然是“预测”就有“概率”,可能因为各种原因导致AI生成的答案不准确(一个不恰当的比方:可能的答案里最高正确概率的只有30%,但没有比这个回答更高概率的回答了,他会把这个仅30%概率的答案视作“概率最高”的“最终”回答) 2、以之前预训练的参数,则会遇到以下问题 1、AI的训练数据并非实时更新 比如GPT3.5所用的是截止到22年的数据,如果你问他后面的事儿,它当然不知道 2、通用AI模型训练的数据大部分来源于公开的网络流传的数据 有一些专业性更强的知识点,不一定在网络流通,因此不再之前训练素材的范围内 3、自然语言的复杂性以及一些其他逻辑陷阱,容易让ai产生误解: 陨石为什么总是掉进陨石坑里(因果陷进) 人如果只剩一个心脏还能活吗(语意歧义) 我应该叫爸爸的妈妈的爷爷的儿子的侄女什么?(复杂伦理) 既然快递要3天才到,为什么不提前3天发(时间因果问题) 以上都是一些极端案例,但也能从侧面说明,再向AI提问时,很有可能应为表达语意的问题,导致ai给出一些奇怪的回答。

常见解决思路

1、修改提示词,通过明确任务、制定约束、提供案例、参考格式等方式要求AI按指定格式、范围生成内容

2、提供补充数据,比如某一份文档,并通过提示词要求AI根据文档内容回答问题,或者如bing,支持ai对互联网内容进行搜索。

3、模型参数调优、补充训练数据(迁移学习&增量学习),此部分概念篇技术,暂未过多了解,但需要知道有这么一个选择。

功能&应用方向

最常见的给它一些文本输入,他会返回相应的文本输出,完成的任务可以是“生成、分类、总结、改写”等等

具体应用方向于下文中整理:

AI应用方向(按表现形式)

关于Transformer架构(LLM发展的核心)

Transformer架构由谷歌团队于2017年推出

GPT的全名是:

Generative Pre-trained Transformer(生成式 预训练 -Transformer)

为何重要:

简单来说,极大的提高了模型的训练效率与模型理解上下文关联性的能力

训练效率的提高带来后续的发展

其他架构缺点:

提出Transformer架构推出之前,AI模型训练主要是RNN(Recurrent Neural Network-循环神经网络)每一步输出取决于先前的隐藏状态+当前输入,需要等上一个步骤完成才能完成当前计算。

训练效率低,不擅长处理长序列(长文本),不太能捕捉距离远的上下文关系(会把之前的信息忘掉)

LSTM(长短期记忆网络),虽然解决了长文本问题,但训练效率问题没解决

Transformer优势:

【自注意力机制】

Transformer在处理一个词的时候不仅会处理本身、附近的词、还会注意输入序列里所有其他的词,然后给予每个词不同的权重,知道每一个词和其他词的相关性有多强

【位置编码】

语言里顺序很重要,一个词的意义与它在语言中的顺序有很大关系,

除了对词进行嵌入,还会对词的顺序进行标注,捕获词在句子中的位置