大模型的下半场,迎接寒武纪的Agent大爆发。
【资料图】
5.4亿至3.6亿年前,海洋生物破发,相比于以前的单细胞或简单多细胞生物,三叶虫、海绵和脊索动物等更高层次的智能诞生了。类似寒武纪生命大爆发,BabyGPT、AutoGPT、Generative Agents等实验性产品相继出新。
从进化的角度来看,生命体的发展主要通过单元增强和组织增强两种方式实现。这两种增强方式相辅相成,使生命具备了更多样复杂的表达形式。
如同Agent——我们希望它是在任何系统中能够独立思考并与环境交互的智能体。
现在它已经有了一颗足够智商的“大脑”,如何让Agent像人一样思考和执行——只要给定任何一个目标,它就能自动解决各种问题。是进一步提高智商,增强智能体的“自身”单元;还是借助外部模块,强化“组织”能力?
虽然今天的Agent尚无法完成通用任务,也难以如多细胞之间的社会化分工,形成动态稳定体。但在个体Agent的局部模块上,如HuggingGPT,已展示了其使用工具的能力,包括Plug-in成为实际落地的重要里程碑,在大模型的下半场,将是Agent寒武纪落地爆发的时刻。
此刻Agent的落地瓶颈在哪里?它能否从专用抵达通用?多模态会为Agent带来什么?未来格局怎样演进?
就像地球上诞生的第一个细胞一样,即使目前的Agent尚无法替代我们在实际工作中的角色,但一切的一切都源于这第一个细胞,它是智能体进化的起点。
即使对Agent的落地再迷茫,也要继续“涌现”。
因为Agent的成败将是决定这一场GPT革命是否是新一代工业革命的关键。
以下将以结构化的思维来思考,Agent何去何从。
一、AI Agent究竟是什么?
几天前,拥有25个Agent的AI小镇正式开源,“西部世界”AI Town随之构筑,AI Agents之间的互动,将演绎出整个文明的演化进程。
OpenAI联合创始人Andrej Karpathy也高呼:“AI Agent代表着一个疯狂的未来。”
什么是Agent?Agent一词起源于拉丁语中的Agere,意思是“to do”。在LLM语境下,Agent可以理解为某种能自主理解、规划决策、执行复杂任务的智能体。
Agent并非ChatGPT升级版,它不仅告诉你“如何做”,更会帮你去做。如果CoPilot是副驾驶,那么Agent就是主驾驶。
一个精简的Agent决策流程,用函数表达式:
Agent:P(感知)—> P(规划)—>A(行动)
类似人类“做事情”的过程,Agent的核心功能,可以归纳为三个步骤的循环:感知、规划和行动。
感知是指Agent从环境中收集信息并从中提取相关知识的能力,规划是指Agent为了某一目标而作出的决策过程,行动是指基于环境和规划做出的动作。
其中,Policy是Agent做出Action的核心决策,而行动又通过观察成为进一步Perception的前提和基础,形成自主的闭环学习过程。
这一过程就像马克思主义的“实践论”:“认识从实践开始,经过实践得到了理论的认识,再回到实践中去。”Agent也在知行合一中进化。
一个更完整的Agent,一定是与环境充分交互的,它包括两部分——一是Agent的部分,二是环境的部分。此刻的Agent就如同物理世界中的“人类”,物理世界就是人类的“外部环境”。
可以想象,人类与外部环境交互的过程:我们基于对这个世界的全部感知,推导出其隐藏的状态,并结合自己的记忆和对世界的知识理解,进而做出Planning、决策和行动;而行动又会反作用于环境,给我们新的反馈,人类结合对反馈的观察,继而再做决策,以此循环往复。
最直观的公式:
Agent = LLM+Planning+Feedback+Tool use
其中,在做 Planning 的过程中,除了基于现在的状态,还有要记忆、经验,一些对过往的反思和总结,同时还有世界知识。
对比今天的ChatGPT,它其实并非Agent,而是一个通用的世界知识,即用来做 Planning 的知识源,它没有基于具体的环境状态,也没有Memory,Experience和Reflection。
当然,ChatGPT基于自身的知识可以做逻辑推理和一定的规划,也可以加向量数据库解决推理问题,加 Reflection 让过程更丰富,如此看来,可将ChatGPT这个端到端的黑盒子变得显性化一点儿——其实符号就是一个非常显性的系统,基于此可以定向纠错,定向提升。
对于Feedback,Agent基于Action得到正向的或试错的反馈、阶段性结果或奖励。Feedback有多种形式,如果将与我们聊天的ChatGPT视为一个Agent,我们在文本框中敲入的回复就是一种Feedback,只不过是一种文本形式的Feedback,此时我们对于ChatGPT来说,就是一种环境。RLHF也是一种环境,一种极度简单的环境。
“人类之所以是人类,因为他会使用工具。 ”
作为智能体, Agent 也可以借助外部工具扩展功能,使其能够处理更加复杂的任务。比如LLM使用天气API来获取天气预报信息。如果不调用外部工具,Action和Feedback也可以直接通过学习Policy,应对环境。
可见Agent是真正主动释放LLM潜能的关键。LLM作为核心,Agent为LLM提供了行动的主观能动性。
今天的LLM要怎么落地?LLM作为一个智商引擎,其他周边工具均可作为Prompt,未来是否会是一个端到端的系统?如果周边的工具不够,是否会有一个更通用的适配框架?
二、Agent落地的瓶颈,是因为“智商”不够?
Agent本身用到两部分能力,一部分是由LLM作为其“智商”或“大脑”的部分,另一部分是基于LLM,其外部需要有一个控制器,由它去完成各种Prompt,如通过检索增强Memory,从环境获得Feedback,怎样做Reflection等。
Agent既需要大脑,也需要外部支撑。
针对目前Agent在实际落地中的阻碍,其原因是LLM自身的“智商”不够,还是其外部的系统化程度不够?
如果外部系统化程度不够的话,它将是一个长期待解决的问题。如果只是智商不够的问题,当GPT-4成为GPT-5,有了更高的智商,即可弥补之前的问题。
那么到底Agent的主要瓶颈在哪里?
真正理解这个问题的症结,可以先做错误归因。即在实际的错误中,清晰地归因到底是LLM本身的问题,还是Prompt的方式不对。
比如向语音助手询问“天气怎么样?”,这个问题本身就存在歧义——指的是哪里的天气?是哪一天的天气?具体想要知道天气中的哪些信息?这些都不是LLM本身所能解决的问题,它需要调用外部的工具系统。
如果仅归因“智商”的话,LLM只需理解“天气怎么样”,如果有具体的上下文——如“下个月上海的天气怎么样”,LLM基于此是否能推断出准确的信息,这是“智商”问题;但具体调用什么工具,执行的参数本身是否准确,这些并非归因于“智商”。
三、未来是否能实现一个更加通用的Agent外部框架?
很多人将 LLM 作为 Agent 的实现方式,这太简单粗暴了。比如,仅为Agent设定一个目标,定义一些基本的条件约束之后,就期待它能完成自我规划、分解任务、自我提示,甚至调用外部的工具,并给出答案的全部过程。然而,LLM本身并不是这样训练的,必然不具备这种能力,但这并非归因于“智商”问题。
从Agent落地的角度来说,仍需要外部的逻辑框架。
虽然目前有许多类别的Agent,但大多很粗浅,不够通用。即使是最简单的Agent应用,语音助手或智能外呼系统,其复杂性以及如何引入环境Feedback等问题,都未得到有效解决。
因此,除了对错误进行更细致的分析外,我们应该研究的一个问题是:除了LLM本身足够通用之外,是否会实现一个通用的外部逻辑框架,来解决Agent真正落地的问题?
如果我们无法找到外部通用的逻辑框架,那么现在这场所谓的AGI革命可能只是一个泡沫,一个巨大无比的泡沫,它其实可能与上一代NLP并无本质区别。
现阶段Agent的落地,不只是“智商”问题,还需要如何借助外部工具从专用抵达通用——而这是更重要的问题。
四、Agent如何能有通用的适配环境?是否需要一个learnable的环境小模型?
把LLM放进一个虚拟世界会怎么样?
在游戏《我的世界》中,英伟达开发最新方法Voyager,以15.3倍速点亮科技树,同时获得的独特物品是此前的3.3倍,探索范围是2.3倍。原因归功于GPT-4对游戏规则的深入理解和丰富的知识储备,它来源于预训练过程,而非后续的增强学习。
从这个视角来看,在优化Agent的过程中,除了关注Feedback,还应该考虑模型如何感知环境。那么通用大脑与环境模型之间的关系如何,怎么配合?Agent如何从专用抵达通用?
Agent目前还鲜少有很好且通用的落地效果,大多是解决特定场景的特定问题——将LLM作为一个通用大脑,通过Prompt设计为不同的角色,以完成专用的任务,而非普适性的应用。
这其中的一个关键问题,即Feedback将成为Agent落地实现的一大制约因素,这一点在Tool use中体现得尤为明显。对于一些如查询天气等简单问题,只需设计恰当的Prompt即可,但对于复杂的Tools应用,其成功概率会大大降低。
简单粗暴地用LLM做出Agent,是天方夜谭。
这种做法一方面忽视了Feedback的重要性,另一方面,即使LLM得到Feedback,凭借它的“智商”也可能并不完全理解所有的环境或Feedback,更难基于此调整自身行为。
想要真正成功落地Agent,是给予Agent一个更通用的适配环境,一种可能的解决方案是创建一个专门用于理解和适配环境的小模型,以此和LLM交互。
由于最强大脑的“智商”部分——LLM因为规模太大是很难针对具体Agent进行重训的,而小模型是可以适应环境变化、多次训练的。在这个场景中,我们可将LLM看作大脑,而小模型就像小脑,作为中间层专门处理环境Feedback,与GPT-4交互。
那么,Agent从专用到通用的实现路径会是什么?
假设Agent最终将落地于100种不同的环境,在目前连最简单的外部应用都难以实现的前提下,最终能否抽象出一个框架模型来解决所有外部通用性问题?
先将某一场景下的Agent做到极致——足够稳定且鲁棒,再逐步将它变成通用框架,也许这是实现通用Agent的路径之一。
五、多模态在Agent的发展中有多重要?
现在的GPT-4,是将所有的内容都转化成文本语言,然后人类去Prompt它。首先,转化过程可能会丢失信息或产生错误,从而导致结果出现偏差。
GPT的下一个版本,如果它能实现多模态在理解层面的超强能力,那它会不会在一定程度上缓解今天Agent的不可靠以及信息丢失与偏差的问题?多模态与Agent的关系将是什么样的?
如果LLM不需要在真实世界中交互,而只是在虚拟世界中执行特定任务,那么多模态对于完成任务的帮助也许并不大。但如果LLM需要与真实世界交互,那么多模态无疑非常重要。
多模态只能解决Agent感知上的问题,而无法解决认知的问题。
在很多情况下,如智能客服场景,用户可能会通过多种方式提供信息,多模态具有很好的感知价值,但在解决一些逻辑、推理等核心问题,还差距尚远。
多模态是必然趋势,未来的大模型必然是多模态的大模型,未来的Agent也一定是多模态世界中的Agent。
当在进行基于文本的Agent的开发时,当多模态的分水岭时刻到来,这些Agent是在原有基于文本的基础上继续发展,进一步融入多模态特性?还是需要彻底改变原有开发Agent的理念和架构,以适应未来的多模态世界?
Agent的开发并不需要全部推倒重来,但一旦Agent拥有了多模态能力,它将会与现有模型截然不同。比如GPT的下一代版本,它可能会包含一些更加强大的图像等多模态理解功能。我们不必急于立即构建这样的模型,也可以选择先调用这样的模块,即最好将多模态理解功能内置在模型中。
半年后,我们将会看到多模态大模型的到来。而多模态Agent的到来,可能会比我们想象中更快。
首先,许多大公司都在储备军火一般地研发多模态。这种量变的积累非常容易引发质变,可能很快就会有实际的产品被推出。其次,人们期待的Agent是如同人类一般的助手,他不仅能说话,还能看到、听到、感知到。理论上,一个优秀的Agent应该能实现多感官、多模态的交互,Perception、Policy都需要多模态。
随着RT-2的发布,一种新的视觉语言动作模型VLA,它将多模态大模型塞进机械臂,实现了实体机器人版ChatGPT。
从趋势上看,未来的Agent一定是多模态的。Agent要成功,多模态也一定是必要的。
在多模态交互方面,数字人也提供了一个很好的示例,它展示了调用外部工具的优势。当大模型调用数字人时,因为形象都已提前设定,我们就无需担心它会突然生成某个政治人物的形象或声音,甚至包括他的幻觉。
尽管美其名曰“生成式AI”,其“生成”部分,最好调用外部工具,以保证其确定性,规避大模型的幻觉。
比如,在多模态交互中,如果想要LLM扮演特朗普,并直接生成一支祝贺视频,那么很可能存在风险。如果LLM仅生成脚本,然后调用既定的数字人和声音接口合成视频,这样更安全可控。
六、多Agent真的会成功吗?
现在的 Agent 还是山顶洞人,但多AI Agents互动会改变一切。
在灵感来自模拟人生游戏的 Generative Agents 实验中,其每个角色都分别由一个 AI Agent 控制,它们在沙盒环境中生活和互动,充分体现了将反馈和环境信息转化为行动的过程,实现 AI Agents 的“社交”。
其中在规划和反应的环节,AI Agents 会充分考虑彼此之间的关系,以及一个 Agent 对另一个 Agent 的观察和反馈,来采取下一步动作。
这个有趣的模拟随之引发了一些戏剧化的社会现象,比如“谣言”的扩散、关系记忆等,在实验中经常出现两个 AI Agents 在聊天中延续他们之前的话题、办Party、呼朋唤友等社交活动。
显然,Agent 的真正落地,一定是建立在对环境的感知、动态学习,以及不断更新之上的。
七、Agent最先在什么场景落地?
早在今年2月,一些在线教育公司开始频频活跃在大模型的讨论上。“我们的行业,如果再不行动的话就会第一个被颠覆”,在大部分公司还未感受到大模型的冲击时,一家头部在线教育公司的人先做出预判和隐忧。
而哪些行业会最先被Agent颠覆,哪些行业不会那么快?
大模型的能力众所周知,但“智商”只是Agent落地的一部分。即使OpenAI宣称AGI已经来了,如果你对行业一无所知,也很难做出实际的应用。
就像一位斯坦福的博士,如果不懂一家公司的行业和产品属性,那么工作初期的难度也会很大。所以,我们需要更深入地讨论哪些行业更适合Agent落地。
比如可以完全在线化、数字化的在线教育行业,尤其在过去的三年疫情期间,许多线下行业都遭受打击,而在线行业却因为数字化的优势得以较快发展,它也会最先被Agent颠覆。相比而言,机器人或传统行业,反而在短时间内较难被颠覆。
目前无论是中国还是美国,新的共识正在逐渐形成:第一是Agent需要调用外部工具,第二是调用工具的方式就是输出代码——由LLM大脑输出一种可执行的代码,像是一个语义分析器,由它理解每句话的含义,然后将其转换成一种机器指令,再去调用外部的工具来执行或生成答案。
尽管现在的 Function Call 形式还有待改进,但是这种调用工具的方式是非常必要的,是解决幻觉问题的最彻底的手段。
八、Agent的未来发展格局是百花齐放,还是Winners take all?
未来大模型的竞争格局日渐明朗,必然几家独大,或基于开源。
而未来一两年内,Agent的市场格局将会如何,会形成同等的势态么?
由于Agent并非能实现通用,Agent并非一家独大,而是将形成一个非常长尾的供应商格局。市场上将会有很多Agent,每一个 Agent 都由不同的公司运营。
如同上一代NLP,很多AI公司都提供智能客服或自动外呼服务,但每一家公司只能服务少数的客户,无法形成规模效应。基于今天对Agent的技术判断,与上一代并无太大区别。
虽然LLM的语义理解是通用的,但是我们之前讨论过的Agent的环境、领域结合并不通用,这会导致市场非常分散,没有强者越强的公司出现。
当然,Agent也分为深度和浅度两种类型。
我们希望做通用的Agent。在中国的市场环境下,如果做一个与企业深度结合的Agent,最终将成为“外包”,因为它需要私有化部署,集成到企业工作流里。很多公司都会去争抢保险公司、银行、汽车领域的大客户。这将与上一代AI公司的结局非常相似,边际成本很难降低,且没有通用性。
未来是Agent的世界,在今天的Agent进程下,依然重复昨天AI的故事,私有化部署将面临挑战。