Agents需要一个代码解释器


作者 | Vasek Mlejnsky

编译 | 言征


构建人工智能代理很难。你将与幻觉作斗争,让agents智商不掉线,并引导他们使用正确的工具。


不过,方法也不难,其中一种就是赋予代理代码执行能力。

以下是为什么你的人工智能代理应该有一个代码解释器的一些原因。


额外技能


具有代码解释器的代理可以获得诸如对CSV文件执行统计分析或绘制图表之类的功能。


当你向不同的代理请求相同的东西时,很明显,那些具有底层代码解释器的代理有多大的不同。如果不运行代码,几乎不可能完成以下任务:


  • 分析NVIDIA的股票并预测其发展。
  • 和人一起玩扑克游戏。
  • 订一张机票。


我们先来看一下Perplexity(一个没有代码解释器的代理)如何处理数据分析任务。即使提供了数据文件,代理也无法完成任务——它所能做的最好的事情就是提供关于应该运行什么代码的建议。



以下是带有底层代码解释器的ChatGPT将如何处理相同的任务…



…还包括安装新软件包和生成图表。




请注意,最终用户不需要意识到应用程序在幕后执行编码任务,因为主要目标(如“为我预订航班”)通常不围绕编码。


复杂推理


大型语言模型(LLM)擅长生成文本,但难以进行推理和复杂思考。


谷歌的团队对丹尼尔·卡尼曼的名著《思考,快与慢》进行了有趣的类比。执行代码的能力使代理具有慢思考(努力、逻辑和计算)与快思考(直觉和自动)的能力,并通过代理在没有代码解释器的情况下的行为来表示。


在他们的类比中,完全依赖LLM的代理可以被认为是在没有慢思考的情况下操作,即在没有深入思考的情况下来快速生成文本。下面是一个例子,说明即使是简单的任务也可能需要一些系统,而不能凭直觉回答。



减少LLM幻觉


最近的一篇论文证实,即使在给出推理提示的情况下,LLM也会对多步骤任务产生幻觉。作为论文研究结果的后续,一位软件工程师展示了使用代码解释器式LLM引擎如何成功地将幻觉减少一个数量级。他发现,代码解释器可以将GPT-4幻觉率从<10%降低到<1%。


代码解释器可以处理上传和下载,编写代码从源文件中查找数据并得出结论,而不是像更简单的代理通常那样自由推理。


对抗LLM幻觉的其他方法包括RAG、微调和增加LLM上下文窗口的大小。


自己测试代码


另一个巨大的挑战是LLM代码的生成。当代理不仅可以生成代码,还可以在运行代码时,它就能够测试自己输出的功能并对其进行迭代。


使用代码解释器构建


作为围绕LLM构建的新生态系统的一部分,我们将看到代码解释器为更多的人工智能代理和应用程序提供动力,在LLM中,代码解释器代表了代理大脑的关键部分。有关构建的灵感,不妨参阅流行的开源产品,如Open Interpreter或AutoGen。

当然,仍然有一些挑战需要克服,例如找到一种安全和最佳的方式来运行LLM生成的代码,这可以通过在独立的云环境中执行进程来解决。


——好文推荐——


OpenAI模型终于更新!强大视听能力的GPT-4o将面向所有用户,其前身正是神秘的gpt2!

实测ChatGPT的Go能力!资深老鸟干货分享:使用ChatGPT学习Go语言容易得多

相关推荐

  • “全家桶”战士归来,谷歌自我革命!
  • 让树模型预测时能加速2-10倍的方案
  • 又一篇AI顶会!这个idea简直“ 杀疯了 ” ....
  • 如何查看 Spring Security 过滤器链?
  • GPT-4o 会带来哪些颠覆?
  • 如何攀上容量保障的珠峰?讲透全链路压测!
  • 2024 Vue 联邦大会,全明星阵容!探讨 Vue 的未来和问题
  • 你的 React 目录结构是啥样?
  • 30 天倒计时警告,Windows 10 21H2 末日即将来临!
  • 小米高管:支持禁止竞业禁止协议;微信月活 13.59 亿;腾讯混元文生图模型全面开源 | 极客头条
  • 编程 20 载,这位新加坡程序员靠 GPT 图解大模型火了
  • Google“反击战”,一夜放出近10款模型!上下文窗口卷到200万tokens、发布Sora竞品Veo、Android也变身了
  • 一款基于 GO 语言的轻量级视频终端下载项目,好强!
  • 无需OpenAI数据,跻身代码大模型榜单!UIUC发布StarCoder-15B-Instruct
  • 美国机器人应用遥遥落后?时隔15年,十所顶尖高校重启「国家机器人路线图」
  • GPT-4o干掉初创全网实测,马斯克Karpathy等大佬纷表不服:OpenAI不过如此
  • 谷歌2小时疯狂复仇,终极杀器硬刚GPT-4o!Gemini颠覆搜索,视频AI震破Sora
  • Docker Desktop 4.29 带来增强的容器隔离性、改进的错误管理界面以及与 Moby 26 的集成
  • 东软集团:生成式 AI 时代,如何布局 AI 人力资源战略?| DTDS 全球数字人才发展大会
  • “驯服”不受控的大模型,要搞定哪些事?| 专访达观数据副总裁王文广