一、什么是智能体?
- 定义:
- 组成:大模型时代的AI AGENT= LLM(核心控制器,构建核心能力)+ 规划能力+记忆+工具。
Agent 是让 LLM 具备目标实现的能力,并通过自我激励循环来实现这个目标。
为Agent创建一个目标或主任务后,主要分为以下三个步骤:
- 获取第一个未完成的任务
- 收集中间结果并储存到向量数据库中。
- 创建新的任务,并重新设置任务列表的优先级
人是如何做事的?
在工作中,我们通常会用到PDCA思维模型。基于PDCA模型,我们可以将完成一项任务进行拆解,按照作出计划、计划实施、检查实施效果,然后将成功的纳入标准,不成功的留待下一循环去解决。目前,这是人们高效完成一项任务非常成功的经验总结。
如何让LLM替代人去做事?
要让LLM替代人去做事,我们可以基于PDCA模型进行 规划、执行、评估和反思
- 规划能力(Plan)-> 分解任务:Agent大脑把大的任务拆解为更小的,可管理的子任务,这对有效的、可控的处理好大的复杂的任务效果很好。
- 执行能力(Done)->使用工具:Agent能学习到在模型内部知识不够时(比如:在pre-train时不存在,且之后没法改变的模型weights)去调用外部AP!,比如:获取实时的信息、执行代码的能力、访问专有的信息知识库等等。这是一个典型的平台+工具的场景,我们要有生态意识,即我们构建平台以及一些必要的工具,然后大力吸弓其他厂商提供更多的组件工具,形成生态。
- 评估能力(Check)->确认执行结果:Agent要能在任务正常执行后判断产出物是否符合目标,在发生异常时要能对异常进行分类(危害等级),对异常进行定位(哪个子任务产生的错误),对异常进行原因分析(什么导致的异常)。这个能力是通用大模型不具备的,需要针对不同场景训练独有的小模型。反思能力(Action)·>基于评估结果重新规划:Agent要能在产出物符合目标时及时结束任务,是整个流程最核心的部分;同时,进行归因分析总结导致成果的主要因素,另外,Agent要能在发生异常或产出物不符合目标时给出应对措施,并重新进行规划开启再循环过程。
LLM作为一种智能代理,引发了人们对人工智能与人类工作的关系和未来发展的思考。它让我们思考人类如何与智能代理合作,从而实现更高效的工作方式。而这种合作方式也让我们反思人类自身的价值和特长所在。
在以 LLM 为驱动的 AI Agents 系统中,LLM 是代理系统的“大脑”,并需要其他几个关键组件的辅助:
- 规划(Planning)
- 子目标和分解:Al Agents 能够将大型任务分解为较小的、可管理的子目标,以便高效的处理复杂任务;
- 反思和细化:Agents 可以对过去的行为进行自我批评和反省,从错误中吸取经验教训,并为接下来的行动进行分析、总结和提炼,这种反思和细化可以帮助 Agents 提高自身的智能和适应性,从而提高最终结果的质量。
- 记忆 (Memory)
- 短期记忆:所有上下文学习都是依赖模型的短期记忆能力进行的;
- 长期记忆:这种设计使得 AlAgents 能够长期保存和调用无限信息的能力,一般通过外部载体存储和快速检索来 归实现。
- 工具使用(Tool use)
AI Agents 可以学习如何调用外部 API,以获取模型权重中缺少的额外信息,这些信息通常在预训练后很难更改,包括当前信息、代码执行能力、对专有信息源的访问等。
二..意义
软件2.0+大模型的下半场
a.自主智能体,力图实现复杂流程自动化。真格基金管理合伙人戴雨森将AI和人类协作的程度类比为自动驾驶的不同阶段,AIAgent 约为自动驾驶的L4 阶段,Agent 完成任务,人进行外部辅助和监督。自主智能体有望带来软件行业交互方式和商业模式变革:0交互方式变革:相比过去的APP/软件,从人适应应用变成应用适应人,Agent 的决策 规划 执行等环节需要更深的用户需求理解以及更强的工程细节打磨。如目前Agent 运行中常常遇见无休止的扩展、误解输出格式等问题,这类问题不单单依靠大模型能力提升,对Agent 架构的设计和垂类数据的学习也有要求。d.商业模式变革:按服务内容收费转换成按token 收费,对Agent 功能实用性要求更高。e.基座大模型能力固然重要,但其只能解决下限问题,在实际企业应用场景中自主智能体的架构设计、工程能力、垂类数据质量等也至关重要,垂类 中间件玩家亦有机会。准确度和效率是自主智能体重要指标(决策式AI 更擅长做的事,也意味着更低的容错度)
而Agent爆火也离不开AI巨头OpenAl 的添砖加瓦。2023年年中,当时还是OpenAI联合创始人的Andrew Karpathy在一个开发者活动的发言被广为传播。“如果一篇论文提出了某种不同的训练方法,OpenAI内部会嗤之以鼻,认为都是我们玩剩下的。但是当新的Al Agent论文出来时,我们会十分认真且兴奋地讨论”。
到2023年11月,OpenAIDevDay上,OpenAI推出其官方Agent开发框架Assistant API,并宣布将推出GPT Store,Agent热潮进一步发酵。
同一时间段,比尔盖茨写了一篇长文看多Agent领域。他预言五年内,Agent将改变人们使用电脑的方式,颠覆软件产业。除了OpenAI和各路大佬动向不断,硅谷还涌现了大量的AI Agent创业项目或产品,比如BabyAG1、MetaGPT、GPT Researcher等。据云基础设施服务商E2B的不完全统计和分类,在编程、个人助手、生产力、财务等多个细分场景都有大量的开源和闭源项目。
三、智能体布局及项目
四、Agent的未来发展
由于Agent并非能实现通用,Agent并非一家独大,而是将形成一个非常长尾的供应商格局。市场上将会有很多Agent,每一个 Agent 都由不同的公司运营。
虽然LLM的语义理解是通用的,但因为Agent的环境因素、领域结合并不通用,这会导致市场非常分散,没有强者越强的公司出现。
Agent从一个先进工具走向行业专家的过程中,会面临一些关键瓶颈。首先就是专业化的挑战,或者说是技术挑战,因为Agent需要具备行业特定的知识和技能,以更好地适应各行各业的需求,包括自主学习能力的提升、算法偏差的解决、智能决策的可解释性等,较高的自主学习和迭代能力,能够持续优化自身的表现和适应新的环境需要不断解决和改进。
硅谷大佬Reid两万字演讲:普通人如何找到自己的位置? |【经纬低调分享】