最近在公司内部给到综的研发同学做了一次分享,关于我对AGI的一些看法、最近GenAI领域的一些流行趋势、AI如何影响我们目前的工作等等。将信息脱敏后分享给大家,enjoy~

关于AIGC的一些内容分享 - 图1

为什么All in AGI?

  • 人工智能是当之无愧的第四次工业革命(蒸汽革命、电力革命、信息革命、智能革命),人类发展是以指数式螺旋上升的形式进行,接下来的十年内,我们会看到的社会变化可能会超过自出生以来看到的所有变化,我们的有生之年可能会见证人类走向两种结局:灭绝或永生。

关于AIGC的一些内容分享 - 图2

  • 人工智能可以分为三个阶段:弱人工智能(ANI)、通用人工智能/强人工智能(AGI)、超人工智能(ASI)。在微软的论文中,GPT-4已经显现出通用人工智能初级阶段的火花,乐观估计,5年内将达到通用人工智能的水平。当AI能够进行自我迭代后,智能水平超过人类可能只是一瞬间的事。人类的智能水平将无法理解人工智能,就像大猩猩无法理解人类社会。

弱人工智能Artificial Narrow Intelligence (ANI): 弱人工智能是擅长于单个方面的人工智能。比如有能战胜象棋世界冠军的人工智能,但是它只会下象棋,你要问它怎样更好地在硬盘上储存数据,它就不知道怎么回答你了。

强人工智能Artificial General Intelligence (AGI): 人类级别的人工智能。强人工智能是指在各方面都能和人类比肩的人工智能,人类能干的脑力活它都能干。创造强人工智能比创造弱人工智能难得多,我们现在还做不到。Linda Gottfredson教授把智能定义为“一种宽泛的心理能力,能够进行思考、计划、解决问题、抽象思维、理解复杂理念、快速学习和从经验中学习等操作。”强人工智能在进行这些操作时应该和人类一样得心应手。

超人工智能Artificial Superintelligence (ASI): 牛津哲学家,知名人工智能思想家Nick Bostrom把超级智能定义为“在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新、通识和社交技能。”超人工智能可以是各方面都比人类强一点,也可以是各方面都比人类强万亿倍的。

关于AIGC的一些内容分享 - 图3

  • ChatGPT/大模型出现的影响:

  • NLP任务成本的大幅度降低,会带来需求侧的极大繁荣。以往的NLP任务,如智能客服的意图识别,需要大量人工成本标注数据(“有多人工就有多智能”),在投入几百万后能够达到80分的水平。GPT-3.5出现后,可以纯靠prompt指导达到70分的水平,去掉了数据标注和训练成本,仅剩推理成本。如果通过小规模数据集对大模型进行finetune,甚至可能以小成本投入达到超过传统单任务训练的效果。

  • ChatGPT+Plugin带来了交互范式的革新:从命令行界面,到图形化界面(Graphic User Interface),再到对话式交互界面(Conversational User Interface/ Language User Interface),每轮变革都将带来万亿级平台型公司的机会。未来的平台型公司极有可能是跨硬件、跨客户端的,比如在iphone、智能音箱、智能手表、智能音箱中都可以唤起同一个chatbot个人助理,而这个个人助理可以帮你完成各种任务(调用淘宝api买衣服、调用滴滴api打车,调用美团api点外卖),智能平台将成为新一代的流量入口,而现在的交易型平台可能会沦为供应链,价值被压缩。

  • 人类社会中的许多职业,如咨询师、律师、影像科医生、程序员,其实担任的是翻译员的角色,将专业知识翻译为自然语言向用户解释个体关注的问题,或将自然语言翻译为机器语言帮助用户实现需求。目前的ChatGPT已部分实现此“翻译员”的功能,可通过自然语言与用户交互。从服务角度,私人律师、私人医生等昂贵知识性服务的成本会大幅度降低,普通个体即可享受以往中产阶级才能享受到的咨询服务;从产品角度,过去囿于成本限制,供给方(产品经理)必须找到用户需求的最大公约数,以保证需求开发的收益>成本,而对于需求方(用户)来说,并不关心自己的需求是不是共性需求,只在乎自己的需求是否能被即时满足。未来如果用户的需求用自然语言描述或直接被大模型通过多模态输入感知到后,可直接由GPT转译为机器语言,对系统做出指令,可能未来不会存在产品经理将用户需求转译成PRD,研发将PRD转译成代码这一步,需求实现的成本将被降至无限低。

  • 目前GenAI主要对比特世界施加影响,已经带来内容生产成本的大幅度降低,大幅降低个体的表达门槛,可以带来内容和信息层面的无限繁荣。未来当AI能够操纵原子世界,会带来物理世界的物质生产成本遵循摩尔定律随时间指数级下降。当人类的物质供给和精神供给无限丰富,人类不需要创造价值时,会迎来一场存在主义危机(哲学可能会变成最重要的学科)。

大语言模型是什么?

大语言模型(Large Language Model)是一种基于人工智能技术和深度学习算法的自然语言处理系统,具有处理和生成人类自然语言的能力。大语言模型通常是由大规模的神经网络构建而成,通过学习大量文本语料库来预测语言的下一个单词或句子。这种技术被广泛应用于机器翻译、自然语言生成、智能客服、文本分类等领域。

大语言模型的基本思想是使用大量的文本数据训练神经网络,使其能够学习自然语言的语法、语义、词汇等知识。一旦训练完成,大语言模型就可以根据上下文信息生成连贯的句子或回答问题,实现自然语言处理的各种应用。

大语言模型的技术原理主要是基于神经网络的深度学习算法,下面是详细解释:

  1. 数据预处理:首先,大量的文本数据被用来训练模型。这些文本数据经过一系列的预处理操作,例如分词、去掉停用词、标点符号等,以便神经网络能够更好地理解语义信息。

  2. 神经网络结构:大语言模型的核心是一个包含多个层次的神经网络。常用的模型结构有RNN(循环神经网络)、LSTM(长短时记忆网络)和Transformer(自注意力模型)等。这些模型结构都具有良好的记忆能力和预测能力,可以根据上下文信息生成连贯的句子或回答问题。

  3. 模型训练:通过使用大规模的文本数据,神经网络学习文本语料库中的语法规则、词汇关系、上下文信息等。这个过程需要大量的计算资源和时间。在训练的过程中,神经网络的参数被不断地优化,以达到更高的准确率和表现力。

  4. 模型推理:在模型训练完成后,可以使用训练好的神经网络进行推理,生成文本内容。在生成文本的过程中,模型会根据给定的上下文信息,预测下一个单词或句子。预测的结果会反馈到模型中,用于更新模型参数,以便模型能够更加准确地生成文本。

GenAI领域的最新趋势是什么?

闭源与开源各自繁荣

LLM领域:

闭源:GPT-4>Claude>GPT-3.5>new bing>Bard>文心一言(美团龙珠评测结果)

开源:绝大部份都是基于Meta开源的llama模型进行的再训练模型,部分模型可以使用小参数量达到媲美GPT-3的效果,可以在消费设备上部署,使用CPU进行推理。

本地部署Alpaca模型教程:https://mp.weixin.qq.com/s/-hfaSrNteM_RYTpVG0eZog

开源模型的意义:1. 部分需求对智能程度的要求程度不高,但对于数据隐私要求很高。开源模型可以私有化部署到每个个体的终端设备中。2. 闭源模型仅限于大公司投入有限的数据、人力、算力进行迭代,开源模型可由社区内无数贡献者进行接力式迭代。

图像领域:

闭源:Midjourney V5

开源:Stable Diffusion+Controlent

Google Colab部署Chilloutmix(一种基于stable diffusion训练的checkpoint模型)教程:https://mp.weixin.qq.com/s/v2XOHwlMN3Qn9ckUSYQmcg

以AutoGPT为代表的自主型人工智能

AutoGPT的基本原理:自主迭代+内存管理+API调用。

  • 自主迭代:收到任务后,将任务拆解为几个子任务,每执行完一个任务后,进行批判性的自我审查,此任务的运行结果是否达成目标,是否需要自主创建新任务。

  • API调用:每个子任务可自主调用外部API,如Google搜索

  • 内存管理:集成了Pinecone数据库,将任务执行过程和结果等作为背景信息,指导下一次任务执行。

关于AIGC的一些内容分享 - 图4

AutoGPT项目地址:https://github.com/Significant-Gravitas/Auto-GPT

平时工作中怎么使用AI?

首要原则:平时工作中遇到的任何想要问同事或者问Google的问题,先强制自己向ChatGPT提问。可能ChatGPT回答的结果没有直接问Google的结果更好,但是次数多了,就能够知道如何与ChatGPT沟通,ChatGPT的能力边界在哪里。

通用咒语:

  • 我要写一份PRD/OKR/PRFAQ/周报/…,你有哪些背景信息需要了解的?

  • 以上问题的回答是xxx,你还有什么其他需要了解的信息?

  • 好的,请输出PRD/OKR/PRFAQ/周报/…,参照格式为xxx…

我平时使用的一些场景:

  1. 写各种繁琐的任务型文档

如:采购单、xx申请信

  1. 解释各种论文中的技术型概念

如:请向一个小白解释什么是梯度下降算法,并给出案例

  1. 查询各种google难以检索到的操作问题

如:outlook怎么下载所有邮件,为什么我在finder中找不到.env文件

提示工程(Prompt Engineering)入门指南

提示工程(Prompt Engineering)是一门较新的学科,关注提示词开发和优化,帮助用户将大语言模型(Large Language Model, LLM)用于各场景和研究领域。掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。研究人员可利用提示工程来提升大语言模型处理复杂任务场景的能力,如问答和算术推理能力。开发人员可通过提示工程设计、研发强大的工程技术,实现和大语言模型或其他生态工具的高效接轨。

提示工程不仅仅是关于设计和研发提示词。它包含了与大语言模型交互和研发的各种技能和技术。提示工程在实现和大语言模型交互、对接,以及理解大语言模型能力方面都起着重要作用。用户可以通过提示工程来提高大语言模型的安全性,也可以赋能大语言模型,比如借助专业领域知识和外部工具来增强大语言模型能力。

ChatGPT调教教程 https://github.com/f/awesome-chatgpt-prompts

提示工程指南 https://github.com/dair-ai/Prompt-Engineering-Guide

有哪些产品可以研究?

for研发同学

github copilot x https://github.com/features/preview/copilot-x

langchain https://python.langchain.com/en/latest/index.html

for产品同学

AI产品导航站 https://theresanaiforthat.com/

ProductHunt https://www.producthunt.com/