我们判断,如果 ChatGPT 不犯大错,两年之内,整个科技行业甚至人类社会都会被颠覆一遍。倒计时已经开始了。
在 ChatGPT 纪元中,提问题的能力和判断力也许是人类最重要的两个能力。我们这里提出五个关键问题,并且试图抛开网络上的二手观点,做出基于原理的判断。

  • 更详细的科普文可以参考这篇:了解 AIGC 中的 ChatGPT 和 LLM
  • 其中包含如何在公司快速便捷地使用 ChatGPT
  • 针对中台业务场景的应用:ChatGPT 在中台业务应用的可能性与探索

这篇文章会尽量用准确的说明与类比(如何区分准确的类比和偷换概念的类比)去解读技术。
但是对于这样一个非常新、非常颠覆、大家对原理和应用都还没形成共识的技术,不了解技术细节就去打比方,难免信口开河。所以我们会先尽量无损地把需要的技术细节都盘清楚,然后再去进行抽象和提取本质。

哪五个问题?

  1. 是什么:ChatGPT 是范式突破吗?和过往 AI 有什么不同?
    2. 会怎样:ChatGPT 两年内会达到什么水准?
    3. 行业格局:ChatGPT 以及 GPT 有壁垒吗?
    4. 如何参与:我们未来应该如何使用 ChatGPT?
    5. 人文:人类和 ChatGPT 的本质区别是什么?对人类社会的冲击?
    还有一个不需要讨论的重要问题:ChatGPT 不会开源的,因为 AGI 是一个危险品。国内那些依赖开源+抄的公司可以死心了。指望原子弹开源吗?
    我们搞清楚这五个问题,就能判断市面上大多数解读 ChatGPT 的观点,无论从技术、商业、投资,等等角度,是否靠谱了。其实就两个关键
    1. 对 ChatGPT 新能力的认知:这新能力是什么,有什么意义?
    2. 对“能力获取难度”的认知:ChatGPT 如何获得的?难度有多大?
    文章结尾我们会做一下总结。让你下次见到某大模型,可以判断这是 ChatGPT 的 80%还是0%。

    为什么这样问?

    最近到处都在讨论 ChatGPT,就像 A 股 6000 点的时候所有人都在讨论 A 股一样。但是大家的问题主要聚焦在于自己会不会被 ChatGPT 取代,中国如何赶超 ChatGPT,ChatGPT 相关概念股票是什么,等等。这些问题很重要,但是对于 ChatGPT 这样一个人类高科技结晶的新物种,不先搞清楚它“是什么”和“如何牛逼的”,那就没有办法形成自己的判断。没有自己的判断,看 ChatGPT 就像看元宇宙、Web3、自动驾驶一样,觉得好像牛逼,也有一套看似点只能被别人牵着走。
    所以我们先要搞清楚这两个问题。
    搞清楚 ChatGPT“是什么”和“如何牛逼的”是一件困难的事情,因为最顶尖的人工智能大佬们也没有达成共识。比如 Meta 的 AI 负责人,深度学习三大佬之一的 LeCun 就不看好,认为这就是个基于 auto-regressive(自回归)的 LLM(large language model,大语言模型),从方法上来讲没有啥范式突破。只是因为 OpenAI 是个创业公司,大家宽容度比较高,ChatGPT 在乱说话,大家也能容忍。
    另一面,ChatGPT 的火热就不说了,比如特斯拉的首席 AI 科学家就选择回到 OpenAI,共建 AGI(artificial general intelligence,通用人工智能,也是 OpenAI 的追求目标);Meta 的 VR 创始人卡马克选择离开 Meta,自己开一家 AGI 公司。另外一篇文章截取了大佬们的赞誉
    image.png
    技术讲解环节:“自回归”“大语言模型”是两个关键词
  • 自回归的意思是,我先用模型预测下一个词是什么,然后把预测出来的词带入模型,去预

测再下一个词是什么,不断迭代。这是过往语言模型的通用范式。也能让各类语言类任务
统一成“生成式”任务

  • 大语言模型是因为 GPT 的海量数据与参数。大语言模型本身也值得技术科普一下,我们在

第一个问题中展开
大佬们都认可 AGI 的重要意义,但是对于 ChatGPT 是不是有“范式突破”,是不是 AGI,有重大分歧。大佬们无法形成共识,我们有两种选择,一种是做“early-adoptor”,早期采用者(特点是懂技术,有 vision,想通过技术带来巨大改变),去在体验和探索中形成自己的观点;一种是做“early-mass”,早期大众(特点是厌恶风险,希望追求确定的改善),等着标准成熟,应用也有定论,再去采用。作为中台,我们需要抓住 IEG early-adoptor 的身份。所以我们需要在纷杂的信息中形成自己的理解和主张。
这次讨论就想达到这个目的。数科和算法同学会保证信息的准确,知之为知之不知为不知,但是观点、主张、区别、共识,需要老板们自己推演出。

开头:ChatGPT 的最基本版历史

虽然想直接开始问题,但是一定程度的技术科普还是必要的。这样能在思考问题的时候更加高效。我们着重参考两篇综述,尽量抓重点:
1. 大语言模型技术精要(链接)
2. ChatGPT 的各项超能力从哪里来(链接)
第一份综述主要讲了大语言模型发展中的关键技术突破,第二份综述主要讲了 ChatGPT 发展过程中的几个重要模型“做到了什么”和“有什么与众不同的做法”。我们把两篇文章的重点挑出来,标注一下里程碑事件,和其意义。

事件 意义
Transformer 问世
让深度学习模型可以“自由吸收”数据中的知识
大语言模型突破了参数和算力限制,从此语言模型也进入参数越多,数据越大,模型效果越好的时代。
LLM 内战,逐渐吊打老 NLP
Google 的 Bert 路线和 OpenAI 的 GPT 路线各有所长
GPT 通过“自然语言生成任务”,兼容了几乎所有 NLP 问题;但是 Bert 比 GPT2 表现好。此时大语言模型已经开始吊打传统 NLP 模型了
GPT3 问世
展示 in-context learning 能力,简单调教下就能吊打精调过的很多模型
一方面让 GPT 模式初现一统江湖的潜质,一方面 GPT3 的 in-context learning 能力,展示了和过往 ML 的 finetuning 模式的本质区别,我们在下面单独详细展开
- InstructGPT
ChatGPT 的交互模式,让 GPT 的能力,更加贴近人类真实交互方式
在 in-context learning 基础之上,进一步降低了 prompting 的门槛;一定程度解决了 GPT-3 生成结果与用户期望不一致的非预期输出,大幅降低了有害的、错误或偏差的输出结果,让 GPT 更符合人类胃口
- GPT 读代码
代码训练能力的提升是 GPT3 到 GPT3.5 的重要迭代之一,模型可从而可以生成代码和理解代码
Codex 模型读了大量代码,之后的 GPT3.5 模型涌现出了 inference 的能力。不光能读懂和生成代码,对语言本身的理解和推理能力也解锁了
- RLHF
ChatGPT 背后的核心技术之一,让模型学习人类的偏好
全称是 reinforcement learning from human feedback,通过构建人类反馈数据集,训练一个 reward 模型,模仿人类偏好对结果打分,是 GPT-3 后时代 LLM 越来越像人类对话的核心技术
ChatGPT
InstructGPT 的亲戚,但一些优化方式也带来了 ChatGPT 的更泛化和准确能力,再次引爆了 AIGC
ChatGPT 总体来说和 InstructGPT 一样是使用 RLHF 进行训练,但模型是基于 GPT3.5,而且数据设置上也不同。
ChatGPT 是一个输入,模型给出多个输出,然后人给结果排序,让模型可以学习人类的排序策略,即使是一本正经的胡说八道看起来也很合理的样子。

这里面再强调一个关键点。GPT3 之后,很多能力是“涌现”的。即不是线性发展,可预测的,而是突然就有了。至于这对于 OpenAI 的人是早晚会发生,还是完全未预料,我们就不知道了。这几个“涌现”出的能力,尤其是 inference 的能力,是 ChatGPT 和过往 AI 的范式不同, 也会是我们这次讨论关注的重点。“涌现”也是大语言模型很神奇的一点,这些能力我们发现模型随着数据量和模型大小的提升,就突然具备了,但是我们对这些能力怎么出现的,只有猜想,没有共识。这篇文章有一个比较全面的总结和比较。下图是 GPT-3 到 ChatGPT 的演变历史
image.png
这里也牵涉到了一个重要的题外话,大概是发生在 in-context learning 和 instruct 这一模式下。尤其是对“fine-tuning”这个词的理解。如果用过往模型的经验去想象 ChatGPT 的运作方式,就会产生错判。这一误解反而更容易发生对 AI 已经有所了解的从业者身上。

重要的题外话 — 很多 AI 从业者为什么对 ChatGPT 有错误理解?

过往的 NLP 模型是按照具体任务和具体数据来训练的。所以数据质量越好,模型效果越好。 而且最好只有正确数据,没有错误数据。大语言模型有一个重要不同,是“数据越多”越好,而数据质量变成了重要,但稍显次要因素。
在一开始,大模型想要在特定任务上取得较好效果,也需要那个领域的具体数据去“fine-tune”一下。通过大量的例子,先教给模型,那个领域中什么是好,什么是坏,调节一下模型的权重,从而输出恰当的结果。这和过往模型的范式是差不多的。
而 GPT-3 涌现出的 in-context learning 能力(Google 的 PaLM 大模型也有)和上述范式有本质不同,“过往的 fine-tuning”需要更改模型参数。也就是说,换了个新模型,从而在新数据上表现更好。但是 in-context learning,模型并没有变化,却能在新数据上表现更好。研究甚至发现,你给大模型一堆范例,只要对应关系整体是对的,这时候改变具体对应的顺序,大模型仍然能输出正确的结果。这真的很神奇。一定要抓住这一点,模型没有变化,没有被重新训练,但是能“理解”新数据,并且表现更好!
image.png
接下来还有更神奇的。在 GPT-Codex 版本解锁了推理能力,以及 InstructGPT 提出了 instruct 这一方法,他们合体的 ChatGPT 在 in-context learning 的基础之上,展示出了具备 inference 能力的样子。我们在下一章详细展开。

1.ChatGPT 是范式突破吗?

机器学习发展了这么多年,遵循同一个范式。哪怕 2016 年大火的 AlphaGo,也完全没有脱离这个范式 — 鹦鹉学舌。

过往机器学习的范式 — 鹦鹉学舌

机器学习,包括深度学习,所遵循的范式是“data fitting”,即找到数据中的“对应关系”并应用。具体来说,就是 Y=f(X),给定一些优化目标,机器学习通过学习已知 X 和 Y 的关系,即 f,让我们在见到一个未知的 X‘的时候,也能根据规律,总结出 Y‘是什么,能最好达到我们的目标。
从信息论的角度,这样的范式,所能总结的规律,应该是在“已有 X 所包含信息的范畴之内”。换句话说,遇到一个新的 X‘,虽然没见过,但是应该和过去的 X 长得差不多。用图像识别举例,如果模型只在小狗小猫的数据上训练过,是无法区分马车和汽车的。
这就很像鹦鹉学舌的机制。鹦鹉是不知道那段话的意义的,它用自己的方式去理解了这个发音,并且模仿了出来。计算机能更加精准地进行控制和编程,让这个机制发挥更大作用,比如

  • 图像识别 + 搜索,就能高效找人
  • Matrix completion + 用户数据收集,就能高效推荐
  • 把游戏规则恰当转化为优化方程 + 问题的局部抽象 + 自己生成对局训练,就能下围棋

推荐算法的原理

  • 想象一个矩阵,横着是不同的人,竖着是不同的短视频,格子里是这个人对这个短视频的 兴趣指数,我们要想方设法填满这个格子,给每个人推荐最感兴趣的短视频
  • 核心问题是在每个人都没看过 99.9999999%短视频的情况下,这题怎么解
  • 有很多种方式,传统的运营、策略,也是一些方式。现有算法的主要做法是
      1. 把每个视频抽象成特征
      1. 把每个人抽象成特征
      1. 通过特征对特征的方式进行泛化和填表,如果用人来理解的角度,可能是
        • 中年男人喜欢看钓鱼(内容+画像推荐)
        • 你同事们喜欢看老板点赞过的视频(关系链)
        • 看过 AB 的人喜欢看 C(collaborative filtering)
  • 但是记得,模型抽象出来的特征是适合机器理解,而不是适合人类理解的。用人类能描述的方式去描述机器的优化,注定是降低效率的

由此可见。过往 AI 应用的拓展主要是来自几点
1. 高质量的数据,模型的发展,算力的提升,让模型越来越准、快、和发现更多更深的“对应关系”,能进行更好的优化
2. 更好地把商业问题转化为优化问题
3. 和其他能力的深度结合
但是这些都是基于“鹦鹉学舌”这一范式的。过往的 NLP(natural language processing,自然语言处理)就是一个很好的例子。发展了那么多年,语音助手能根据指令来达成一些目标,但是从来都没有真的“懂”那些指令。过往的 NLP 只能做“填表”,必须背后有一个人设定好具体的任务,规划好如何把语音或者文字形成固定的 function,该 function 如何调用相应的能力。如果 没有人提前规划,那模型就无法实现。这篇文章总结的非常好,这里就不赘述了。
上面这个“懂”字,如果深究的话,会发现大家对这个字的定义其实存在很大分歧。我如果让狗 狗伸手,狗狗伸手了,是“懂”吗?过去 NLP 的懂和 ChatGPT 的懂,又有什么区别呢?分清这一点,我们就能分清 ChatGPT“涌现”出来的让大家惊诧的能力是什么了。这里引用朱松纯教授关于乌鸦的例子。

ChatGPT 可能的新范式 — 乌鸦

原文在这里,介绍了乌鸦是如何“感知、认知、推理、学习、和执行”的:
image.png
总结一下,城市中的乌鸦学会自主串通

  • 汽车能压碎坚果
  • 红绿灯能控制汽车

这两件事情,从而利用红绿灯和汽车,来帮自己达到“打开坚果”这一任务结果。如果类比成机器学习模型,过往“鹦鹉学舌”范式的解法,是要求所有乌鸦可以共享一个大脑,它们有很清晰的优化目标,即“保住性命的前提下打开坚果”。它们的方式是,随机尝试所有事件的组合,并向着最优解的方向不断优化。
但现实世界的乌鸦无法共享大脑,也不能去冒着死亡风险去尝试所有可能。乌鸦只有一次机 会,把观测到的两个现象,产生了一个新的可能性,并应用在一个全新的场景下。我们文章里 暂时把这个能力称之为“inference”。中文翻译为推理,但是它和“deduction”,即演绎、推演,又有所不同。
Inference 的翻译是“基于证据和逻辑推演,得到结论”的过程,有的时候,还要加入很多猜测、 抽象、泛化。举个例子,ChatGPT 其实表现出了很多新能力,但是我们选择专注“inference” 的能力,并且和朱教授五年前的文章联系起来,就是一个 inference。朱松纯教授在文章里就呼 吁大家去“寻找‘乌鸦’模式的智能,而不要‘鹦鹉’模式的智能”。现在 ChatGPT 让 AI 第一次看似拥 有了“乌鸦”模式的智能,那当然是一件划时代的大事件。
但是 Inference 也不是一个特别好的词,因为在机器学习领域里,inferencing 特指使用训练好 的深度学习模型来预测新的数据这一件事,会产生误解。另外,我也不确定 inference 和“乌鸦” 的能力是一一对应的。
在我们自己的文章里,我们会用“乌鸦”来指代 ChatGPT 的新能力。但是在对外交流的时候,“乌鸦”需要解释的内容太多,所以我们会简化为“理解”。从“乌鸦”到“理解”,当然是一个信息量 损失很大的过度概括。但是好处是可以把 ChatGPT 的本质能力凸显出来。过往互联网的两次能力跃进一次来自于搜索,一次来自于推荐,现在 ChatGPT 带来了“理解”,也非常有结构
感。

ChatGPT 看似拥有“理解”能力的证据

image.png
之所以说“看似”,是因为我们并不知道乌鸦为什么会有 inference 的能力,我们也不完全知道 LLM 为什么会有“达成 inference 效果”的能力。我们知道的是,LLM 激活 inference 能力的方式一定与人类和乌鸦不一样。所以我们不把话说死,只说看似拥有,不确定真的拥有。为了节省笔墨,我们接下来就不说“看似”了。
我们把具体的例子放在附录里,但是有这几点感受很明显

  • ChatGPT 拥有 in-context correction 的能力,即如果说错了,给出矫正,ChatGPT 能“听懂”错在哪儿了,并向正确的方向修正(案例:)
  • 描述越详细清楚,ChatGPT 回答得越好。要知道,越详细的描述,在预训练的文本里越难匹配到
  • 在询问 ChatGPT 互联网上并不存在内容的时候,能给出较好答案(案例:我用 ChatGPT 学 UE5)
  • ChatGPT 能通过信息猜你心中的想法(案例:跟 ChatGPT 玩 20 questions)
  • 你可以制定一个全新的游戏规则让 ChatGPT 和你玩,ChatGPT 可以理解前两点是本质,后三点是体感。

回过来对比过往 NLP 模型范式如何能达到类似效果,就能看到 ChatGPT 的神奇之处。过往模 型一定需要针对具体的问题进行具体设计,而且只要说的话稍稍不够“结构化”,模型的表现就 很难保证,更别提在模型资料库里,没有出现过的问题了。

打比方时间到

把该说的细节说清楚,我们现在可以负责任地打比方了。其实朱教授鹦鹉和乌鸦的比方最精确不过了,但是毕竟人不是鹦鹉和乌鸦,鹦鹉和乌鸦的能力到底有什么区别,也需要一番解释, 我们还是打一个“人”的比方。
过往 ML 模型是一个“说话不过脑子”的“复读机”类型的人。好处是这个人记忆力和检索能力都特别强,而且有自己的一套理解事物对应关系的方式,让你给他看足够多东西的时候,TA 就能找到对应关系。所以你给 TA 看的东西越多,离你的目标越近,TA 的表现越好。问题是 TA 其实完全听不懂你在说什么,你没教的 TA 也不可能会。
ChatGPT 是一个“开窍”之后拥有“举一反三”能力的人。而且这个举一反三不光是在“相似问题”上,而是能把看似没有联系的事物联系起来,并且做一些逻辑推演。那 ChatGPT 就是一个“懂很多”,有很强的“学习能力”,而且“能听懂你”说话。
提炼对比一下的话

  • 过往 ML:需要“喂”,之后“模仿”,基于的是“对应关系”
  • ChatGPT:需要“教”,之后“懂”,基于的是“内在逻辑”

后者的能力上限和应用空间,比起前者岂止百倍。这也是为什么大家如此兴奋焦虑。兴奋是因为可能性,焦虑是因为目前只有 OpenAI 一家做出来了 ChatGPT,而且并不开源。如果 ChatGPT 如此重要且牛逼,但所有人只能基于 ChatGPT 做应用的话,每个人都要重新考虑自己的商业模式了。这两个问题都属于“猜想未来”,一不小心就会变成科幻小说,我们基于事实和底层理解,用科学的方式去尽量负责任地推演。

2.ChatGPT 两年内可能达到的上下限是什么?

image.png
通过 Prompt 催眠 ChatGPT,让它突破 OpenAI 的政策限制

比方

我们打两个比方。

  • 对比过去的技术:过往模型是弓箭,GPT3 是火绳枪,ChatGPT 是后膛枪。我们在观望马克沁什么时候出现。火绳枪也许一开始打不过弓箭,但是是热兵器迟早会淘汰冷兵器
  • 对人类的作用:ChatGPT 是不断迭代的交通工具。是需要驾驶员,但是能跑多快,跑多远,取代多少“人力运输”,确实也需要道路、司机、交通规则的配合(产品、商业模式等),可是纤夫肯定是大规模淘汰了

    关键的现状

    我们有如下几个信息
    1. OpenAI 的 GPT4 已经开发了三年+,大概率会“效率提升很多”,不确定“涌现哪些新能力”
    a. 确定的是起码会解决 GPT3 的一些重要问题,比如更加优化的数据-参数比例、更有效率的信息处理与规律发觉、更高质量的信息输入,等等。极大概率会比 GPT3 的效率高很多,inference 的成本低很多(很可能是百倍提升)
    b. 不确定的是模型会有多大(大很多基本确定是谣言),会不会有多模态(之前确定没有,现在难说,不然 Andrej Karpathy 为什么要去呢),但是如果有的话,也是多模态理解,不太可能有多模态输出。更重要的是,不知道 GPT4 会涌现什么新能力
    2. ChatGPT 现在遇到的很多问题,工程上都有相对简单的解
    a. hallucination/说胡话:因为 ChatGPT 没有对准确度进行优化,也没有引入搜索数据等做矫正;而且人类也可以参与判断过程;另外就是先应用在自己能判断好坏的场景下做辅助
    b. 记忆力有限:OpenAI 开放(收费)接口就行了,现有解决方法也很神奇,直接告诉 ChatGPT,现在告诉你的内容只是一部分,听完了再回答我。就行了
    c. 危险发言:ChatGPT 的自我审查能力不是基于规则的,而是基于理解的。那其实更加可调节。给出尊重基本规则下,发言尺度可调节的 ChatGPT,也是 OpenAI 公开发表的愿景
    3. ChatGPT 能写代码,做分析,做总结,做营销方案,并且快速变得更好用
    a. 会用的人已经在大幅提高效率了,例子(黄同学说自己公司的经验、Monica 的 quote、发在群里 chatgpt 帮忙写代码的案例)
    b. New Bing 显著更加好用
    4. OpenAI 内部对 AGI 的安全问题非常重视
    a. 能力是涌现的,意味着人类是不理解的,也自然会有担心。虽然不太可能出现天网,但是会不会突然就能破解当前的加密算法?这就很难说
    b. 所以 OpenAI 极大概率是不会开源 LLM 的

    推演结论

    a. ChatGPT 的成本会直线下降,尤其 inference 的成本会小两个以上数量级

    中文媒体对 ChatGPT 成本的猜想大多不靠谱,我们只选择两条信息源

  • Sam 在公开场合曾说过 ChatGPT 的 inference 成本是每条几分钱

  • Key Takes from ChatGPT and Generative AI.pdf,根据 Jefferies Research 的详细调研,ChatGPT 的 inference 大概率是使用闲置 x86 CPU,而非 GPU 进行的

叠加我们对于 inference 和大语言模型优化空间的理解,我们认为 inference 成本直线下降是极大概率的。成本下降就意味着应用范围以及数据收集的能力。ChatGPT 哪怕到了十亿 DAU 的水准(现在一亿 DAU 的估算也不靠谱),也是能做到免费的。最多限制一下每天的使用次数就行了。New Bing 一度限制 60 条,现在也没了。这些实际使用中的对话无疑会进一步加强 ChatGPT 的壁垒。
PS:文章写完后的 3.1 日,OpenAI 开放了 ChatGPT 的 API 接口,成本已经优化了 90%,百万字 2.7 美元

b. ChatGPT“能力”子模型可能会重新训练,但“知识”子模型只需要通过 instruct prompting 的方式喂知识

过往 AI 遇到一个新任务,需要在新任务的数据上重新训练一个模型。前面但是 InstructGPT 范式下不需要这样做。如果 ChatGPT 基于的 pre-train 大模型有相关能力,那只要通过对话、引导、教育,不断调教,就能让 ChatGPT 在子任务中把新能力应用好。
image.png
这里最好的比方可能是钢铁侠 3。如果打比方的话,ChatGPT 是通用型铠甲,出厂就能干绝大 多数的活儿。当然,需要“理解”一下如何用现有能力去“创新”性地完成那些工作。工作水平大 8 概在出简单医疗建议、给法律参考、写代码框架、做营销方案、做心理咨询、充当面试官,等等的范畴。
如果想对某些方面进行专精,比如牺牲对话能力来提高上下文理解能力,牺牲对话延续性来提 高信息精度,等等,就需要回炉重造,进行调整。这里可能也会融合一些其他能力模块,比如 搜索(new bing)、和其他模型的接口、工具使用,等等。这就像那些专精型铠甲。当然,能力+工具能解锁的可能性是巨大的,比如 Hulkbuster。
image.png

c. Prompting 的能力会大幅增强,猜测会适度开放

已经在这样做了:
image.png
这样除了是一个明显的商业化点,有两个更重要的意义
1. 可以让大家调教出来“属于自己的 ChatGPT”,这个 ChatGPT 跟你长时间聊天之后能适配你的喜好,甚至学会你想让他学会的独有知识(注意,不是能力,能力只能激活)
2. 可以让大家能在 ChatGPT 的闭源模型上,发展出自己的独有竞争力。从而解决“我只能给 OpenAI 做 UI”的焦虑

d. GPT4 会大幅提升 ChatGPT 的能力,在多数领域达到“优秀员工”的水准

我们现在明显是在范式革命的早期,成长曲线将是陡峭的。New Bing 和 ChatGPT 已经展现出巨大差异了。我们有足够多的理由相信,GPT4 在如下几个方面几乎“必然”有巨大进步

  • 大模型,大数据,更加优化的参数和数据比例 — 参数越大越好,数据越多越好,但是合适的比例才能让模型充分吸收数据知识。这方面优化方向很明确
  • 更有针对性的训练数据集 — OpenAI 在“造高质量大数据”上的能力几乎独步天下了,而经 过 GPT3 之后的多年摸索,什么数据对增强什么能力更有用,即使不清楚,也早就有了体 感,肯定可以更好调整(比如读更多代码,多语言的比例,等)
  • 可能的“能力模块融合” — New Bing 以 ChatGPT 为基座,延伸了搜索能力。那有没有办法 把搜索能力直接融入到 pre-trained 大模型里呢?一些工具能力呢?我认为把“搜索能力融入 pre-trained 大模型里”的方式和把 RLHF 融入 ChatGPT 的方式其实是类似的。不是去“用搜索能力丰富语料库”,而是把“GPT 的结果更适配搜索引擎的偏好”。

更加强大的归纳、“理解”能力,看似更好的悟性,结合更多场景的调教,我预测在两年内,基于 GPT4 的 ChatGPT 类产品,在大多数场合下已经能达到 9 级员工的水平了。详细会在第四问中展开。

ChatGPT 的会取代大多数“搬砖”类工作

“乌鸦”能力到底能带来什么颠覆性意义呢?意义在于 ChatGPT 已经接近于“人类调用算力”的究极界面了。从计算机发展以来,一直在三方面进行发展。

  • 算力和存储能力的进步,以摩尔定律为代表。在云之后,更让个人可以调用的算力几乎无上限
  • “调用算力手段”的抽象与进化。从机器语言、汇编语言、高级语言,到虚拟机(对硬件的抽象)、云服务(对 API 的抽象)
  • 对数据的生产、总结,和使用

后两者虽然进步了很多,但是编程仍然是阻止大多数人调用算力的门槛。现在,ChatGPT 已经可以很好地进行编程辅助了。假以时日,我们可以直接向 ChatGPT 去要一个结果,把执行过程交给 TA,而跳过中间的 PM - BRD - 开发 - 交付的冗长流程。
我们退一步去思考一下,为什么 ChatGPT 可以取代这类工作?因为这类工作虽然是“技术”工种,但是其实“创新”的比重并不高。我们经常会用“搬砖”来自嘲自己工作的重复,但是其实这正是问题的关键。如果我们所做的无非是去理解问题,寻找互联网上已有答案,把两者进行对接,那如果 ChatGPT 能理解问题,归纳答案,自然能比我们干得好。
image.png
抽象来看,ChatGPT 拥有编程能力,也拥有其他能力。大家需要思考自己工作的本质,是在真的做创新,把已有的点链接起来之后形成新的点,还是在“搬砖”?如果是后者,真的需要去试用一下 ChatGPT,看看自己能不能确定比 ChatGPT 做得好了。

3.ChatGPT 以及 GPT 有壁垒吗?

当然有,但是壁垒多高,取决于问题 1、2 的结论。我们把几种情况分列一下。
1. ChatGPT 的“乌鸦”能力不是范式突破,只是错觉
2. ChatGPT 的“乌鸦”能力是范式突破,竞争者 6 个月内就能“涌现”
3. ChatGPT 的“乌鸦”能力是范式突破,竞争者 6-24 个月才能“涌现”
4. ChatGPT 的“乌鸦”能力是范式突破,但是竞争者两年内都无法“涌现”
如果是情况#1,那这整个都不值得讨论。但是从实际使用体感来说,#1 基本可以排除了。如果是情况#2,那各大互联网公司有自己的厉害的大模型只是时间问题,腾讯自己也有机会。就像有自己的云、自己的图像识别算法等等,虽然有好有坏,但是可以解决有无的问题。
如果 Google/Meta 需要 6 个月才能复现 ChatGPT“理解”的能力,可以认定其壁垒极高是很高的,尤其是工程难度极大。这个时候其他巨头想要“追赶”,就很难了。因为 ChatGPT 的数据飞轮优势已经几乎无法撼动。同时,国产 ChatGPT 基本不太可能了。
有人可能不服,过去的很多模型都很快抄的出来,为什么 ChatGPT 抄不出来?这是因为如下几点原因,让 ChatGPT 更像“芯片”和“大飞机引擎”,而不是“普通 AI 模型”或者“原子弹”。

ChatGPT 壁垒的来源

1. GPT3 是闭源的

ChatGPT 更是到现在连 API 都没开放。OpenAI 内部对于 AGI 的态度是非常审慎的,光从安全这一点考虑,都不可能把 ChatGPT 开源。所以国产机器学习依赖了十几年的“开源模型国产实现”路径,在 ChatGPT 上是不要指望的。

2. OpenAI 的工程能力是很强的壁垒

这是因为创始人真的懂,真的能坚持,真的挖到了这方面最好的一批人,形成了超高的人才密度。“增加模型参数”这件事需要工程能力,更难的是“让大模型有效地学习到大数据中的知识”。这里面的工程积累就可以类比“芯片”和“大飞机引擎”了。下一步的工程积累必须站在上一步的工程突破上。而且要求过程中参与的工程师们都要有“原理性”思考的习惯。据打听来的消息,正是因为 OpenAI 超高的人才密度,才在互相碰撞中突破了诸多工程瓶颈。

3. 务实的土壤很难长出 OpenAI 的能力

比如字节跳动的推荐算法模型也很大,业界也很羡慕,工程难度也很高。但是本质是面向业务目标不断优化的模型,所有都是基于现有模式进行优化,是不可能形成范式突破的。但是如果不能“一步一脚印”地为业务提供正反馈,整个模型的发展就很受限。老板能给三个月时间,但是很难在三年还没有突破的情况下给耐心,就算有耐心,团队士气也无法保障。

4. Leadership 的技术判断力是稀缺资源

New Bing 与 ChatGPT 结合地这么快,效果又这么好,在创业历史上其实是罕见的奇迹。这是乔布斯和马斯克的段位,远超市面上其他人。这方面可遇不可求,不是一个可复制的模式。
听说最近百度在国产 LLM 的卡位很好(其实并没有),但是 Robin 在自动驾驶上吃过一次亏,于是对 LLM 给的时间是很短的。这就是 leadership 缺乏技术判断力,就无法理解为什么自动驾驶是个空饼,而 ChatGPT 是真东西的典型例子。

5. 数据飞轮已经形成

ChatGPT 不光是一个 AI 新范式,也是一个现象级成功的 C 端产品,又有微软的资源和渠道加成,很明显一上来就卡住了非常好的身位。这种情况下,ChatGPT 的使用数据是可以不断反补模型本身的。ChatGPT 的博客里也反复强调他们有独特的机制,让数据的使用、理解、生产,有紧密的闭环。

复现 ChatGPT“理解”能力要多久?

以上所说的五条原因都是“困难”。但是到底有多“困难”,还是需要量化。ChatGPT 是一个一个学术界和业界都缺乏定论的新技术,具体的量化不太可能,所以我们这里抓住一个核心点,即“涌现‘乌鸦’的能力”,可能性有多高,需要多久?
image.png
很明显,无论中国出了多少个类 ChatGPT 产品,有多少个国产 LLM,我们都知道,离 ChatGPT 能力最近的是拥有 Deepmind,提出 Transformer/T5/PaLM 的谷歌。我们盯紧 Google 什么时候涌现“乌鸦”能力就好了。
“乌鸦”能力是涌现出来的,而不是有确定可复制的路径的。我们虽然知道其能力是在 GPT 训练到什么规模有涌现的,但是不确定别的模型在这个规模也会涌现同样能力,毕竟文本质量和优化方式差别很大。就好像引擎的原理都知道,但是能不能达到那个推重比,只有极少数的公司能掌握。
一个典型的话术会是“在 OpenAI 已经探明路径的情况下,花 OpenAI 50%的投入,达到 OpenAI 80%的效果”。希望看完上面,我们能认知到,我们应该默认这条路是行不通的。基于能力是 “涌现”的,要么 100%,要么 0%;叠加背后隐藏的工程难度,我们大胆推测一下,市面上迟早会出现下一个 ChatGPT,大概率是 Google 做出来的,但是六个月内出现的可能性不大。
而国产 LLM 在 Google 做出来之前,就别看了,无论如何吹,不是 ChatGPT,也成不了 ChatGPT(希望我是错的)。在这种情况下我们就不去讨论复现 ChatGPT 需要多少张显了,没意义。

4.我们未来应该如何使用 ChatGPT?

image.png

OpenAI 的的开放方式有待观望

我们上文基于现有信息,技术理解,和我们的猜想,提出来了 ChatGPT 的最佳开放模式应该是增强和开放 prompting 的能力,打比方来说,让健忘的 ChatGPT 记得你交代的事情,对你来说就有用了太多。接下来就是 GPT4 的开放和通过不同方式调教出来,各有所长的子能力模型。
但是以上都是猜想,真正的使用方式还是要看 OpenAI 自己如何开放。江湖传闻下一步是和 Office Suite 的深度整合。Notion AI 已经给了很好的例子,确实很香。但是究竟是去增强微软现有产品,还是去成为下一代计算机?我认为 OpenAI 会选择后者。但是站在此时此刻,我们只能猜测和观望,以及做好人和 ChatGPT 的合理中间层。

ChatGPT Wrapper 是我们当下可做的

其实绝大多数人是不习惯于清晰表达自己脑海中想法的。所以虽然 ChatGPT 已经把“调用计算力的手段”无限趋近于最合理的手段(用自然语言要求结果),但是我们已经发现,“提出信息完整的 prompt”,对现在的人来说,是一个高要求。
网络上已经有很多 prompting 的模版(比如这里)。把这一层做好,一方面能显著提高大家对 ChatGPT 的使用效率,一方面也能让我们积累对用户真实需求的理解和揣测,从而和 ChatGPT 做好适配。

对 ChatGPT 能力的合理运用

对于 ChatGPT,我们应该在现在的条件下思考更合适的应用

  • 对症下药:ChatGPT 不是搜索引擎、不是程序,我们就用它做它擅长的事情,而不是去做

搜索引擎和程序可以更高效完成的事情

  • 择善而从:当前的 ChatGPT 是有明显的 hallucination 问题的,那我们就不能 100%相信它的结论。一个简单的方法是我们要在自己能判断对错的地方去使用 ChatGPT 提高我们产生想法,收集归纳信息的效率,但是人要来把关

image.png
同时,我们也要意识到人类有更大的局限,不谈算力和知识面,光从理解能力这一角度来说

  • 人类很难意识到自己的错误
  • 人类有 ego,会影响自己的认知,也会让观点带入感情色彩
  • 人类会故意偷换概念,等等

image.png
所以 ChatGPT 也许短期不会直接取代人类工作。但是两年内一定可以让一部分人的人效极大程度地提高。虽然说消灭工作的同时会产生新工作,但是很可能是消灭了一百个,产生了一个。那我们必须要思考一下,假如 ChatGPT 理解能力更上几层楼,拥有了多种能力,并且说话也靠谱不乱说了,我们人类的竞争力还剩下什么呢?

5.人类和 ChatGPT 的本质区别是什么?

因为我们的脑科学和神经科学非常不发达,这里只能从哲学寻求解答。BTW,除非脑科学产生重大的范式突破,不然 neurallink 这种脑机接口,是不可能实现大家想像中的那些功能的。
我们不是哲学专家,这里就仅供参考。

a. 判断力

ChatGPT 再厉害,也只能去吸取虚拟数字中的数字信号,是无法与现实世界做真实交互的。它可以听一万个专家告诉他做 A 就会得到 B,但是不从真实世界中做实验,就无法从最底层确认这个说法究竟是真是假。绝知此事要躬行,才能有判断力的根基。

b. “Eureka”

牛顿看到苹果落地,可以发现万有引力,从而预测星星的运动。哥白尼发现地球是围绕太阳转的,而在他之前全地球人天天看着日出日落,都认为太阳是绕着地球转的。如果那个时候有一个 ChatGPT,一定非常笃定太阳绕着地球转。那个 ChatGPT 也许能从苹果如何落地推测出桃子如何落地,但是大概率无法推测出星星的运动方式。
当然,能发现万有引力的人也是少数。更有意义的是去识别这种思维能力到底是什么,以及在我们日常生活中如何体现。阿基米德在泡澡时候发现浮力定律的时候喊了“Eureka”,大概可以形容这种“灵感并发、灵光一现”的瞬间。我们这里把这个瞬间稍稍具体地归结为“链接了数个相关的点,并且发现了第三个点”的过程。

c. 增量知识

如果把现有知识归纳总结应用, 那必然 PK 不过 ChatGPT。只有创造互联网上不存在的新知识,才可能是 ChatGPT 做不到的。注意条件指向,互联网上不存在的新知识,也未必不能从存量知识里总结出来,但是能从存量知识里总结出来的,一定不是人类的优势。
d. 理解人
人类的文本知识里一定存在很多人性的理解,但是也一定有一些人性或者偏好,是没有被记录总结在文字里的。如果我们结合 1 和 3,就会发现,去真实世界理解人,而不是去通过调研、问卷、网络资料理解人;去带来增量的理解,而不是去人云亦云地重复套路。才是人类相对于 ChatGPT 的优势。

总结

  1. ChatGPT 的范式突破是“乌鸦”能力。恕我能力所限,无法更简单地无损表达这一能力的本质了。如果允许有损,我会用“理解”能力来概括它最重要的一面。作为对比,过往 ML 的能力模式是“鹦鹉”能力,所做的是寻找“对应关系”
    2. ChatGPT 的意义是对“调用算力、总结信息”最究极的手段,预测会在两年内有能力辅助人类取代大多数可被定义为“搬砖”类型的工作
    3. ChatGPT 的“乌鸦”能力是涌现的,工程难度是极高的。我们应该抛弃各种噪音,聚焦关注 Google 是否能复现这一能力,从而判定这一能力到底有多难。而现在,建议我们的默认预测是这一能力很难复现,需要别人来用强力证据说服我们他们能复现
    4. 我们对 ChatGPT 的使用应该观望 OpenAI 给我们提供的调用方式,在当下,我们应该聚焦用好 ChatGPT,并且做好 ChatGPT 能力与我们所需要解决问题的的中间层