OpenAI秘密武器「草莓」计划曝光！Q*推理能力大爆发，逼近AGI L2里程碑

新智元报道

编辑：Aeneas 好困

【新智元导读】OpenAI被曝出了新项目「草莓」，据悉能提前计划，自主浏览网页，还能进行深度研究。草莓由大量通用数据上后训练而成，推理能力显著提高。根据OpenAI最近的AGI路线图，草莓疑似已达Level 2。

昨天刚刚被曝出AGI五级路线图，今天OpenAI的新项目Strawberry也被曝出了。

不过，大家其实对它都很熟悉——就是曾经的Q*。

听闻消息的马斯克，也补上这么一句评论——「以前的说法是，AI末日是回形针灾难，没想到是永远的草莓田。」

根据路透社在5月份看到的内部文件，OpenAI团队正在全力研究Strawberry项目。

Strawberry具体是如何运作，即使在OpenAI内部也是高度保密的。

因此，何时公开发布，时间也是未知。

从AGI五级路线图来看，具有推理能力还能自主可靠浏览网页的Strawberry，可能已经到了L2的级别

而就在本周，OpenAI刚在内部会议上展示了某个demo，据称推理能力接近人类水平。结合路线图的曝光，一切都太巧了。对此，网友们纷纷猜测，OpenAI一定还在憋个大的。

显著提高AI模型的推理能力

文件显示，Strawberry模型的目的，是为了使公司的AI不仅能生成查询答案，还能提前计划，足够自主且可靠地浏览互联网，进行OpenAI所称的「深度研究」。

而这个目标，根据对十多位AI研究人员的采访，目前尚未有任何AI模型实现。

路透社表示，Strawberry就是去年的Q*，后者在OpenAI内部已经实现突破。

当被问询到Strawberry的更多细节时，OpenAI发言人表示——

我们希望我们的AI模型能像我们一样看待和理解世界。对新AI能力的持续研究是行业中的常见做法，大家普遍相信，这些系统的推理能力会随着时间的推移而改善。

知情人士表示，OpenAI希望Strawberry的创新能显著提高其AI模型的推理能力，并补充说，Strawberry涉及了一种AI模型在经过非常大的数据集预训练后的一种特殊处理方式。

而路透社采访的研究人员表示，推理是AI达到人类或超人类智能的关键。

虽然LLM可以飞速总结密集文本、撰写优美文章，但在解决对人类很直观的常识性问题时，如识别逻辑谬误和玩井字棋时，表现并不佳，常常出现幻觉。

研究者表示，在AI背景下的推理，就需要一个模型让AI能提前计划，反映物理世界的运作，并且可靠地解决复杂的多步骤问题。

改进AI模型的推理能力，被认为是解锁这些模型潜力的关键。有了推理能力，模型在进行重大科学发现、规划构建新的软件应用上，都会有可观的提升。

Sam Altman此前也曾表示，今后AI领域最重要的进展，将「围绕推理能力展开」。

而其他巨头，如谷歌、Meta、微软等，都在尝试不同技术，来改进AI模型的推理能力。

沿着目前的路线，有可能实现让LLM将想法和长期规划纳入其预测方式吗？图灵三巨头之一的LeCun对此持唱衰态度。

他坚决认为，LLM不具备类人的推理能力。

后训练，能让LLM学会推理吗

要克服这些挑战，对OpenAI来说Strawberry就是关键。最近几个月，OpenAI曾私下向开发者和外部人士暗示过，即将发布具有显著先进推理能力的技术。

据悉，Strawberry包括一种被称为「后训练」的特殊方法，即在OpenAI的生成式AI模型已经在大量通用数据上「训练」后，调整基础模型以特定方式优化其性能。

模型开发的后训练阶段涉及「微调」等方法，这一过程几乎如今所有的LLM都在用，比如RLHF。

知情人士表示，Strawberry类似于斯坦福大学在2022年开发的一种方法——「自我教导推理者」（Self-Taught Reasoner，简称STaR）。

论文地址：https://arxiv.org/abs/2203.14465

论文作者之一，斯坦福教授Noah Goodman表示，STaR使AI模型能够通过迭代创建自己的训练数据，来「自我提升」到更高的智能水平。

理论上，可以让语言模型实现超越人类水平的智能。

结果显示，在算术、数学文字题和常识推理中，STaR能够有效地将少量的少样本提示转化为大量的推理数据集，从而显著提升性能。在CommonsenseQA上，STaR比少样本基线提高了35.9%，比直接预测答案的微调基线提高了12.5%，其表现与一个大30倍的微调模型相当（72.5%对73.0%）。

另一项OpenAI希望让Strawberry具备的能力之一，是执行长时间任务（LHT），这指的是需要模型提前计划，并在较长时间内执行一系列动作的复杂任务。

文件显示，为了实现这一目标，OpenAI正在创建、训练和评估被称为「深度研究」数据集的模型。

OpenAI非常希望模型能够利用这些能力，通过一个称为「CUA」的计算机使用Agent来自主浏览网络，并根据其发现采取行动来进行研究。

此外，OpenAI还计划测试其在软件和机器学习工程师工作中的应用能力。

神秘项目疑似Strawberry加持

就在2024年7月初的一次全员会议上，OpenAI内部曾对一个神秘研究项目做了展示。

据称，它所展现出的推理能力，已经达到了类人的水平。

结合前文的信息，路透怀疑这可能与Strawberry有关，但目前还无法确定。

而同一时间曝光出的这张通往AGI的路线图，似乎也印证了OpenAI即将会有新的进展。

可以看到，OpenAI将最终抵达AGI终点，划分了五大等级：

L1：聊天机器人，具有对话能力的AI。

L2：推理者，像人类一样能够解决问题的AI。

L3：智能体，不仅能思考，还可以采取行动的AI系统。

L4：创新者，能够协助发明创造的AI。

L5：组织者，可以完成组织工作的AI。

OpenAI表示，我们目前正处在第一级别，不过很快会达到第二个级别，即推理者。

所谓推理者，也就是指可以解决博士水平的基本问题的系统。

OpenAI CTO曾透露，OpenAI接下来将致力于研究在特定任务上博士级别的智能，也许就在一年或一年半之后实现。

也就是说，我们还有18月的时间，即将看到级别二的下一代模型。

Q*重出江湖

2023年11月，OpenAI的神秘Q*项目，引爆整个AI社区。

泄露出来的信息，Q*的能力，是能够解决小学阶段的数学问题。

虽然在大多数人看来，这并不是什么令人印象深刻的事，但这的确是朝向AGI迈出的一大步，堪称重要的技术里程碑。

因为Q*解决的，是以前从未见过的数学题。

Ilya做出的突破，使OpenAI不再受限于获取足够的高质量数据来训练新模型，而这，正是开发下一代模型的主要障碍。

那几周内，Q*的演示一直在OpenAI内部流传，所有人都很震惊。

据悉，OpenAI的一些人认为Q*可能是OpenAI在AGI上取得的一个突破。AGI的定义是：「在最具经济价值的任务中，超越人类的自主系统」

所以，Q*究竟是啥呢？

这要从一项1992年的技术Q-learning说起。

简单来说，Q-learning是一种无模型的强化学习算法，旨在学习特定状态下某个动作的价值。其最终目标是找到最佳策略，即在每个状态下采取最佳动作，以最大化随时间累积的奖励。

斯坦福博士Silas Alberti由此猜测，Q*很可能是基于AlphaGo式蒙特卡罗树搜索token轨迹。下一个合乎逻辑的步骤是以更有原则的方式搜索token树。这在编码和数学等环境中尤为合理。

随着几位AI大佬的下场，大家的观点，愈发不谋而合了。

AI2研究科学家Nathan激动地写出一篇长文，猜测Q假说应该是关于思想树+过程奖励模型。并且认为Q*假说很可能和世界模型有关！

文章地址：https://www.interconnects.ai/p/q-star

他猜测，如果Q*（Q-Star）是真的，那么它显然是RL文献中的两个核心主题的合成：Q值和A*（一种经典的图搜索算法）。

A*算法的一个例子

GPT-4o放出新演示

话说，OpenAI最近似乎没有多大动静了。

最近的技术进步，我们可以从OpenAI开发者体验主管Romain Huet在旧金山人工智能工程师世界博览会上的分享中感受一下。

这些分享主要是产品演示，包括GPT-4o Voice、ChatGPT桌面版、Sora和Voice Engine（未发布），

虽然示例有所不同，但用到的模型能力，与5月份在巴黎VivaTech活动上所展示的基本一致。

在这个演示中，主管让GPT-4o表演了多种语调，比如激情四射版、悄悄话版等。

GPT-4o可以即时听懂Huet的命令，立马做出正确的反应，在场观众给出欢呼。

接下来，Huet向ChatGPT出示了金门大桥的手绘图，让它猜猜自己在哪里。

ChatGPT马上猜出来这是哪个大桥，并说出Huet在旧金山，还认出了他在纸上的手写字——「Bonjour Developer」！

随后，Huet又迅速给了它一堆任务，比如认出查理芒格的书，随机翻一页后迅速总结书页大意等等，ChatGPT没有任何迟疑，迅速给出了正确答案，效率令人惊叹。

下一步，Huet把prompt发给Sora，Sora立马就生成的符合要求的视频——自然纪录片风格的丛林中的树蛙。

美丽的自然纪录片中，一个极近特写镜头拍摄了一只五彩缤纷的树蛙在雾气弥漫的浓密丛林中攀爬树枝和树叶，拍摄时间为白天。使用35mm胶片进行远摄，并带有景深效果。

随后，Huet从视频中提取了6帧，然后把这6帧发给了GPT-4o Vision，让它描述自己看到了什么。

很快，一段内容详实的故事就被创作了出来：

在雾气弥漫的浓密森林深处，一只色彩斑斓的青蛙小心翼翼地沿着覆盖苔藓的树枝前行。它明亮的绿色身体上点缀着醒目的黑黄图案，在茂密的植被中显得格外显眼。

在这条危险的路径上，青蛙保持警觉。每一步都很慎重，粘性的脚趾牢牢抓住粗糙的树皮。树枝轻轻摇晃，显示出它精妙的平衡感。

到达树枝的边缘时，青蛙评估着前方的空隙。突然，它爆发出一股能量，跃了过去。但就在后腿推离时，脚滑了一下。短暂地悬在空中，青蛙笨拙但安全地落回树枝上。

尽管有些失误，这只坚韧的两栖动物重新站稳了脚跟，展示了野生环境中生命的顽强。它毫不气馁，准备进行下一次跳跃，坚定不移。

最后，Huet展示了voice engine的神奇功能。

他先录了一段自己的语音，然后把刚才Sora生成的树蛙视频发给voice engine，下一秒，上面那段树蛙视频的长故事，就用他的声音被读了出来！观众们掌声雷动。

然后，这段故事又被Voice Engine用法语、日语重新读了一遍（感觉翻译的淘汰又近了一步）。

在产品层面，OpenAI已经做到了如此先进的地步，如果再加上Strawberry的推理能力，OpenAI离AGI的实现，恐怕是要很近了。

参考资料：https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/https://www.youtube.com/watch?v=yJHw33cVeHo

OpenAI秘密武器「草莓」计划曝光！Q*推理能力大爆发，逼近AGI L2里程碑

新智元报道

【新智元导读】OpenAI被曝出了新项目「草莓」，据悉能提前计划，自主浏览网页，还能进行深度研究。草莓由大量通用数据上后训练而成，推理能力显著提高。根据OpenAI最近的AGI路线图，草莓疑似已达Level 2。

相关推荐