向数字世界AGI迈进！让智能体直接控制键盘、鼠标，与一切软件交互

通用计算机控制信息革命产生了数字世界，数字世界为大模型的诞生提供了数据，也最容易实现通用人工智能（AGI）。

向数字世界AGI迈进，北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制General Computer Control (GCC)，即智能体需要像人一样看屏幕，通过键盘、鼠标完成计算机上的所有任务。在过去很长一段时间里，人工智能研究以游戏为场景，而GCC将为通用人工智能研究提供场景，也将进一步促进大模型和AI Agents的落地与产业化。为此，研究团队提出通用计算机控制智能体框架Cradle，使智能体不依赖任何内部API直接控制键盘、鼠标和任何软件交互，无论开源还是闭源，甚至能玩《荒野大镖客2》这样的商业3A游戏大作！

↓ 论文标题：Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study

论文链接：https://arxiv.org/abs/2403.03186
项目主页：https://baai-agents.github.io/Cradle/
代码链接：https://github.com/BAAI-Agents/Cradle

随着大模型的发展，越来越多的智能体（AI Agents）研究关注计算机控制，包括浏览网页、操作智能手机、玩游戏等。然而，已有研究依赖内部API获取输入，并输出预先定义好的动作。要构建能完成计算机上一切任务的通用智能体，必须使用最通用和最标准的输入输出与计算机进行交互。因此，通用计算机控制使用统一的输入和输出，从而让智能体的通用性变为可能。

但通用性带来了操作上的难度：

（1）使用计算机屏幕作为输入对智能体的视频理解能力提出了更高的要求，例如由于没有内部API，需要通过视觉信息判断动作是否执行成功；

（2）使用键盘和鼠标操作作为输出使得智能体需要更高的时空操作精度，比如键盘按键和鼠标点击通常额外涉及时间维度。如何解决这些难题是构建通用计算机控制智能体(GCC Agents)的挑战！Cradle：操控一切软件

「计算机指任何以用户为中心的计算设备，包括PC、智能手机和平板电脑等。尽管Cradle着重于键盘和鼠标操作，但可以很容易扩展到控制手柄和触摸屏等」通用计算机控制智能体框架Cradle主要由6个模块组成：信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块。Cradle高度的通用性来源于其对和计算机交互过程中的原始输入输出的合理封装和抽象。以从屏幕中显示的视频作为输入，提取其中的文本和视觉信息进行决策，并且输出底层操作系统中控制键盘和鼠标的信号去和计算机交互，使得其可以不依赖于任何假设与所有软件进行交互。

「Cradle主要由信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块等6个模块组成，其强大的决策推理来自于“反思过去，总结现在，规划未来”」

同时Cradle强大的决策推理模块让其得以自发和软件进行交互并且完成任务，这个过程可以被简单地总结为：反思过去，总结现在，规划未来。

反思过去：使用执行过往动作过程的视频作为输入，分别提取出其中关键的文本和视觉信息，通过反思来判断上一步动作是否执行成功、任务是否完成以及如何改进。总结现在：反思完之后，总结当前情况，并且以此为依据来决定是否更换任务目标或是修改任务内容。规划未来：最后根据当前任务和现状生成或者更新技能，并且从已学会的技能中检索与当前任务相关的技能作为备选，然后从中选取合适的技能实例化为动作去执行。在决策推理的同时，Cradle会周期性地总结和维护储存在情境记忆中的历史信息以及储存在长期记忆中的技能。这一过程的大脑是多模态大模型，如GPT-4V，但是Cradle为其添加了总结、反思以及记忆等功能，形成了完整的面向通用计算机控制的智能体框架，有效解决了通用性所带来的难题。Cradle：带你从头开始探索《荒野大镖客2》为了证明框架的通用性和强大的决策能力，研究团队选择将Cradle部署到最为困难以及鲜有人探索的的商业3A游戏大作《荒野大镖客2》。他们认为作为操作最为困难的软件，假如Cradle能够在3A游戏上自由探索甚至完成主线剧情，那么说明该框架有巨大潜力泛化到其他游戏和软件上。

「与Minecraft这样的开源游戏不同，大多数商业游戏特别是3A游戏并不提供内部API接口，使得类似Voyager这样的依赖内部API获取输入并输出预定义动作的框架无法迁移到其他游戏中」以GPT-4V为基础，Cradle能直接根据游戏内的提示和教程生成对应的可执行代码作为技能，一步步丰富自己的技能库，并在之后的游戏中重复使用这些技能。

在执行了错误动作之后，Cradle能够有效地通过反思来发现并且纠正错误。

Cradle不仅能从头开始跟随游戏指引生成相应技能，完成长达40分钟时的主线剧情，还能在开放世界自由探索，骑马，打猎，战斗，与NPC对话，使用道具，操作地图，甚至商店购物，均不在话下。这是首个能长时间游玩商业3A游戏的智能体。

结束语开源的Cradle代码可以很容易扩展到其他软件和游戏。研究团队表示，为了能够实现真正的通用计算机控制，后续Cradle还将移植到更多软件和游戏上，也鼓励相关研究团队/工业界开展进一步研究与探索。目标是让智能体可以与无论是开源还是闭源的所有软件进行交互并持续自我提升，实现通用性，最终成为通用人工智能诞生的摇篮。

"GCC is a cradle for AGI."

—The Cradle teamCradle技术解读直播预约智源Live是智源社区学术交流活动，本期将在2024年03月14日14:30-15:30由新加坡南洋理工大学博士生谭伟豪进行报告。点击「阅读原文」报名或扫描下图二维码报名。

向数字世界AGI迈进！让智能体直接控制键盘、鼠标，与一切软件交互

相关推荐