采访/撰稿丨张洁
编辑丨诺亚
有人说,现在大模型卷不动了,要卷就卷AI Agent。那么,事实真的如此吗?
AI Agent,顾名思义即智能代理,是一种能够感知环境、进行决策和执行动作的智能体。而它作为一个概念真正走红,要从去年3月发布的AutoGPT说起。
彼时,AutoGPT项目让人们发现——这种技术可以利用大语言模型,自动把一个大任务拆分成若干个小任务,并使用工具完成它们。
区别于被动响应用户指令的大模型,AI Agent具备自主规划和执行的能力。于是,自AutoGPT之后,GPT-Engineer、ChatDev、XAgent等项目次第爆发,将大模型推入了新的叙事阶段。原本作为“超级大脑”的大模型有了落地为“全能助手”的潜力。
随后的一年间,AI创投圈密切关注相关创业公司。国内外大厂也纷纷开始聚焦AI Agent的框架、平台和应用开发。
到目前为止,AI Agent无疑是火了,但圈里圈外也多多少少都陷入了一种焦灼情绪:大模型还没整明白,AI Agent又开始了…...
事实上,Agent目前尚处在在起步阶段。一定程度上,AI Agent能力其实是和大模型相生的,大模型的能力边界决定了AI Agent的能力边界。
那么,AI Agent到底有何神奇之处?企业如果要部署AI Agent,需要做好哪些准备?它会成为大模型商业化的钥匙吗?
本期AIGC实战派特别邀请九章云极DataCanvas AI首席科学家缪旭,结合其对于智能体的行业观察和实践总结,就上述议题进行逐一探讨。
(为了行文表达的流畅,在不改变原意的情况下,对采访内容做了适当的文本梳理)
AI Agent洞察:飞跃传统AI,乘大模型东风而起
AIGC实战派:相较传统AI,AI Agent有何特别之处?
缪旭:这里的传统AI,我理解为是针对特定任务的人工智能模型、系统或理论,比如计算机视觉中的分类任务,回归模型中的时间序列预测,自然语言处理中的命名实体识别(NER)等等。可以看到,这类AI明显的特点是专注于特定任务:用途比较专一,训练过程相对独立。就像一个一个烟囱,彼此之间也没有什么通用性。这是传统的任务导向的AI系统。
而如今AI Agent(或者说智能体)的概念,更多强调的是通用能力。可以说,Agent是隶属于AGI的应用体系,其发展得益于大模型。其一,随着大语言模型的通用泛化能力的提升,AI Agent也因此进入了一个完全不一样的发展图景。
其二,在多模态大模型的能力加持下,AI Agent能够理解视觉、听觉和文本信息,获得更全面的环境感知能力。有了这些信息之后,Agent的“角色”才会更加精准。
其三,Agent其实有很强的自主性,像人一样,能够试错、学习和适应。犯了错也会从中学习,进而改进其策略。这就是通用人工智能带来的好处和变化。
在有了这些能力之后,Agent就可以处理一些更为复杂的任务,这就在某种程度上超越了单一任务导向的传统AI。而且传统AI系统的“烟囱式”架构需要大量代码集成才能实现其落地,实现过程非常漫长。如今交由大模型或者Agent框架来做的话,极大地简化了这一过程,减少了对编程能力的依赖,使用户可以更专注于业务本身的落地。所以这也是这波AI Agent带来的好处。
AIGC实战派:从本质上讲,AI Agent 与大模型的关系是什么?其本质区别是什么?
缪旭:本质区别的话,大模型在预训练阶段通常使用自回归方法,这意味着模型依赖于已有数据的分布来预测下一个token。这种方法涉及到使用大量的数据样本,这些数据样本来源于前人的经验和实践。在自回归训练中,数据被转换成语料,然后分割成token。模型的任务是预测下一个token。自回归模型的能力受限于它所训练的数据。如果训练数据只包含了前人的经验,那么模型的能力也可能仅限于此,难以超越既有的知识。
而AI Agent则强调自主性和适应性,它能够通过尝试不同的方法来探索、试错和学习,并根据不同的评价(获得奖励或惩罚)来优化自己的策略。也就是说,AI Agent通过结合强化学习等技术可以实现自我进化,有潜力实现更加复杂和高级的认知任务。
如果从OpenAI的角度来看,他们实际上是希望整个Agent都可以用大模型来实现的。我觉得像GPT 4o即omni版本已经非常像Agent的框架了。之前OpenAI 的坊间传说中有关于Q*算法的种种揣测,实质上它就反映了OpenAI正试图通过Q*算法让大模型本身具备Agent的能力。
AIGC实战派:AI Agent会是实现AGI的关键钥匙吗?
缪旭:(AI Agent如Q*)会是非常重要的改进。就像知名 AI 学者、图灵奖得主 Yann LeCun所说,他不看好自回归LLM,自回归 LLM 受限于前人经验,对潜在现实的了解有限,缺乏常识,没有记忆,而且无法规划答案。从这个层面来说,AI Agent凭借其自主决策和自我进化的特性的确是更上了一层楼,但它究竟是不是实现AGI的关键,还有待商榷。
事实上,从AlphaGo开始就遵循了这一学习路径。一开始AlphaGo学习专业棋谱,就像自回归一样,学习前人积累的经验,后来开始用强化学习的方法生成新棋路,通过自我对弈来超越专业棋手。实际上这种训练方法也取得了成功。但是本身这个任务还是比较像传统AI,是一个非常专一的任务。它的评价系统很简单,你明确地知道它的输赢规则。评判标准是没有任何歧义的。
但是放眼AGI的话,它其实是非常开放的。你很难去评判的原因在于:第一,有很多未知领域,人的知识边界实际上是有很大局限的。在很多事情上无法判断最终结果是好是坏;第二,评判受主观因素影响较大。评判标准的主观性容易导致不同价值观之间的冲突,如果一个智能体在训练时无法兼顾价值观的多样性,其学习结果往往可能不尽如人意,从而影响其在实际场景中的应用;第三,目前的AI智能体,尽管在某些领域比自回归方法强,但并未完全实现自主脱离人进行自我进化的目标。因此,从整体来看,要以智能体作为实现AGI的必由之路还有相当的距离。
应用与挑战:大模型场景落地,如何掌握关键之钥
AIGC实战派:有人说,AI Agent可能是大模型在To B场景落地的一个主要方式,它将会开启大模型的下半场。您认同这一判断吗?
缪旭:我不太确定“下半场”的定义。但是我觉得,下一步,AI Agent会是比较现实的一个爆发点。正如吴恩达教授所说,某些特定问题,用Agent的方法去开发比用大语言模型本身得出的结果要好得多,AI智能体工作流可能比下一代基础模型带来更大的AI进展。因为有时候你使用的大语言模型可能不是那么强,要用这样的大模型直接出结果难度会比较大,但通过Agent的方法,基于它的适应性和试错能力,通过微调和不断学习,很可能获得比大语言模型更优的解决方案。
比如,要训练一个像Sora一样的视频生成大模型会非常昂贵,但我之前读过关于Mora的论文,Mora不是一个单独的模型,而是一个多Agents视频生成框架,结合多个高级视觉AI代理,复现了Sora的通用视频生成能力。从这个角度来说,我觉得,落地AI Agent比较现实,也比较经济,有时候会更贴合落地场景的需求。
AIGC实战派:目前AI Agent发展现状如何,有哪些主要的应用场景呢?
缪旭:首先,纯文本的Agent现在是处于比较卷的状态。再者,随着GPT-4o的出现,多模态大模型越发受到关注。尤其是结合视觉信息,AI Agent将具备更强的多模态理解和决策能力,可能触发新的应用场景。
具体到应用领域的话,Tesla的自动驾驶是很强且具有未来感的AI Agent应用案例,因为它是真正基于端到端的多模态大模型,从视觉入口,加之其他传感器,直接去驱动其驾驶的效应器。这与当前的基于大语言模型构建的智能代理具有相当的差距。
自动驾驶要求其Agent具备实时决策能力,还要有极强的泛化能力以应对各种复杂情况。其任务通常是mission critical,任何小错误都可能付出巨大代价。所以Agent必须能够处理大量corner case,适应各种极端状况。因此,难度很大,挑战很多,可以说Agent在自动驾驶乃至驾驶领域有很多落地的想象空间。
另外,还有应用较多的领域主要包括知识管家类、智能客服类、数据分析类,还有办公自动化等,都有AI Agent发挥的空间。
AIGC实战派:在构建AI Agent的过程中,可能会遇到哪些方面的挑战?
缪旭:一方面,AI Agent需要能够理解和适应特定行业的专业知识和业务逻辑,这可能需要额外的微调和训练;另一方面,AI Agent需要提供自然和直观的交互方式,以及满足用户需求的体验,这可能需要深入理解用户行为和偏好。
如果是通用的办公类Agent,那可能会帮你省下不少时间,但是并不会带给你特别多的其他信息。但如果是构建非通用的、专业化的AI Agent,比如法律类的Agent,那你就必须具备非常强的法律知识。这里实际上会涉及到很多专业领域的问题。如何结合你的专业知识,并最终获得较好的落地效果,我认为是一个非常大的挑战。
还有比较重要的一点是,要明白:人工智能去解决专业问题,跟人去解决专业问题有很大区别。虽然说AI可以替代一部分的专业能力,但是你要让一个专业人员去理解人工智能做的决策的话,必须尽可能预判到可能存在的交流障碍。所以你做的这个智能体一定要让专业人员能够理解其角色,能够进行有效交互,进而帮助专业人员来完成他的最终任务。
AIGC实战派:大模型本身迭代周期较长。如果在大模型本身能力不提升的情况下,为了让AI Agent取得比较好的落地效果,可以考虑采取哪些策略?
缪旭:首先,需要对专业的内在有深刻的洞察,能够将任务分解为可由大模型跟随执行的部分,做好规划(planning)工作;其次,精确的评价至关重要,只有好的反馈才能找到优化的路径;此外,需要提供沙盒环境允许智能体快速试错,从而得到更优的结果。
部署与安全:企业抉择,从没有万能公式
AIGC实战派:企业如何评估当前阶段需不需要使用AI Agent?确定部署的话,需要做好哪些准备?
缪旭:当前无论是大模型厂商,还是AI基础设施厂商都在力推AI Agent,但实际上落地核心还是在于用户。企业在决定是否使用Agent时,需考虑其能否帮助提高生产效率和开拓商业价值。
具体来说,首先需要深入挖掘痛点,寻找可以通过AI Agent解决的问题。比如,企业老板观察到员工每天都要撰写大量冗长重复的报告。通过使用 Agent来辅助写报告,可以节省大量人力资源。而且Agent能够24小时工作不会疲劳。从这个角度来看,在类似场景下,AI Agent的落地对企业的投入产出比是有增益的。同时,长期来看,应考虑产业升级目标,布局AI Agent对于加速智能化进程,获得长远效益是有帮助的。
确定部署Agent之后,在前期准备方面,企业需要收集足够多的历史数据,尤其是在垂直行业,需要构建针对专业需求的Agent时,这一点非常重要。只有做好数据方面的准备,才能避免后期收集数据与部署Agent的时间冲突,更好更快地实现Agent的效果。
AIGC实战派:AI Agent的企业部署成本如何,对中小公司是否友好?
缪旭:目前来说,基建成本和训练成本较高,耗时也长。但是相信随着实践的深入,硬件的改善,以及算法的优化,它的成本会快速地下降。
不过对于中小企业来说,现阶段可能还是无法承担部署AI Agent的成本,这种情况下可以考虑使用通用的大模型服务。因为不管如何,大模型厂商会分摊成本,但风险就是你需要把数据交由大模型厂商来保护,当你真正收获AI Agent的成果,商业价值开始显现时,再考虑私有化部署也是一条出路。
AIGC实战派:在部署AI Agent时如何保障安全性?
缪旭:安全其实是一个比较复杂的问题。部署AI Agent时,首先要注意的是大模型本身的安全性。为了尽可能提升可靠性,需要使用RAG、一些特定验证、后期测试等种种手段来降低大模型“幻觉”的影响。再者,要注意合规要求,部署时要符合法律与政策规定。此外,还涉及业务安全问题,例如缺乏对专业流程的深入理解可能导致意外操作。用户或开发者需要从业务角度出发,测试并保护AI Agent的安全特性,防止出现潜在的安全漏洞。
评估与前景:普通人入局,需深耕细分领域精准发力
AIGC实战派:如何评估一个AI Agent的成功?
缪旭:用户参与度(Engagement)实际上是一个非常重要的指标。简单来说,就是用户是否频繁地使用AI Agent,以及他们与Agent的交互频率和深度。如果用户定期返回使用Agent,这通常意味着Agent提供了价值。当然这一点通常与业务强相关,不同业务需求有不同的评价标准。
通常对于一般性的Agent,我们会有一些通用指标,这些指标有助于判断一个AI Agent是否成功达到实际生产标准。比如:
性能:如果Agent能够快速完成任务,且错误率低,则表明性能良好。
容错性:如果用户在提示词中犯了小错误,Agent仍能够正确理解并给出有用的响应,这表示Agent对错误输入的容忍度高,有良好的容错性。
隐私和安全性:如果Agent能够确保用户信息的安全,不泄露给未授权的第三方,这将是一个重要的成功指标。
AIGC实战派:如果普通人想进入AI Agent赛道,您有哪些建议?
缪旭:我觉得问题关键在于深入挖掘某一专业领域的知识。我并不推荐你尝试通用工具,因为如果没有强大的基础设施支持,提供服务将变得十分困难。大企业突如其来的一次革新就有可能把你筹谋许久的商业模式给颠覆了,所以我建议聚焦于某个专业领域,哪怕是一个非常细分的垂直市场,你也可以用AI Agent+something的方式来构建自己的“护城河”。
——好文推荐——