OpenAI 绝密项目「草莓」曝光，前身为Q*，能实现高级推理

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 机器之心编辑 | 张倩、陈陈

还记得 OpenAI 的秘密项目 Q* 吗？它现在叫「草莓」。

刚刚，路透社独家报道称，OpenAI 内部正在一个代号为「草莓（Strawberry）」的项目中开发一种新Q的人工智能模型。该项目的细节此前从未被报道过，而 OpenAI 正努力证明其提供的各类模型能够提供高级推理能力。根据路透社 5 月份看到的一份 OpenAI 内部文件副本，OpenAI 内部团队正在开发「草莓」。路透社无法确定这份文件的确切日期，该文件详细介绍了 OpenAI 打算如何使用草莓进行研究的计划。消息人士向路透社描述说，该计划还在进行中。路透社无法确定「草莓」距离公开发布还有多远。该人士说，「草莓」的工作原理即使在 OpenAI 内部也是被严格保密的。消息人士称，该文件描述了一个使用草莓模型的项目，其目的是让公司的人工智能不仅能生成查询答案，还能提前规划，以便自主、可靠地浏览互联网，进行 OpenAI 所称的「深度研究」。根据对十多位人工智能研究人员的采访判断，这是迄今为止人工智能模型一直无法实现的。在被问及「草莓」的细节时，OpenAI 公司的一位发言人在一份声明中说道：「我们希望我们的人工智能模型能像我们一样看待和理解这个世界。不断研究新的人工智能能力是业界的普遍做法，我们都相信这些系统的推理能力会随着时间的推移而不断提高。」发言人没有直接回答有关「草莓」的问题。「草莓」项目的前身是 Q*，该项目在公司内部已被视为一项突破。据两位消息人士描述，今年早些时候，他们观看了 OpenAI 工作人员告诉他们为 Q* demo 的演示，Q* 能够回答棘手的科学和数学问题，而这些问题是目前市面上的模型无法企及的。据彭博社报道，在本周二的一次内部全员会议上，OpenAI 展示了一个研究项目的演示，并声称该项目拥有类似人类的新推理能力。OpenAI 发言人证实了这次会议，但拒绝透露会议内容的细节。无法确定演示的项目是否为「草莓」。据报道，在这次会议上，OpenAI 提出了一套五个等级来追踪其在开发能够超越人类的人工智能软件方面的进展，范围从目前可用的可以用对话语言与人互动的人工智能（第 1 级）到可以完成组织工作的人工智能（第 5 级）。

OpenAI 高管告诉员工，该公司认为自己目前处于第一级，但即将达到第二级，即所谓的「推理者」，这指的是可以完成基本问题解决任务的系统，以及拥有博士学位但无法使用任何工具的人。此外，根据 OpenAI 提出的级别，AGI 的第三级被称为「智能体」，指的是可以花几天时间代表用户采取行动的人工智能系统。第四级描述的是可以提出新创新的人工智能。而最先进的级别被称为「组织」。知情人士表示，OpenAI 希望「草莓」这项创新能显著提高其人工智能模型的推理能力，并补充说，「草莓」涉及一种专门处理人工智能模型的方法，在此之前，该模型已在非常大的数据集上进行过预训练。接受采访的研究人员表示，推理是人工智能实现人类或超人级智能的关键。虽然大型语言模型已经可以比人类更快地概括密密麻麻的文本和撰写优雅的散文，但在常识性问题上，这种技术往往存在不足，因为这些问题的解决方案在人们看来是直观的，比如识别逻辑谬误和玩井字棋。当模型遇到这类问题时，往往会出现「幻觉」。接受采访的人工智能研究人员普遍认为，就人工智能而言，推理是指形成一个模型，使人工智能能够提前规划，反映物理世界的运作方式，并可靠地解决具有挑战性的多步骤问题。提高人工智能模型的推理能力被认为是开启模型能力的关键，使其能够完成从重大科学发现到规划和构建新软件应用程序的所有工作。OpenAI 首席执行官 Sam Altman 今年早些时候说过，在人工智能领域，「最重要的进步将围绕推理能力展开。」谷歌、Meta 和微软等其他公司也在尝试使用不同的技术来改进人工智能模型的推理能力，大多数从事人工智能研究的学术实验室也是如此。然而，对于大型语言模型（LLM）是否能够将想法和长期规划纳入其预测方式，研究人员的看法却不尽相同。例如，现代人工智能的先驱之一、就职于 Meta 公司的 Yann LeCun 就经常说，大型语言模型不具备像人类一样的推理能力。

「草莓」成为克服众多挑战的关键

知情人士称，代号为「草莓」的技术是 OpenAI 克服这些挑战计划的关键组成部分。路透社看到的文件描述了「草莓」想要实现的目标，但没有说明如何实现。据四位知情人士称，近几个月来，OpenAI 一直在私下向开发者和其他外部各方发出信号，称其即将发布具有更先进推理能力的技术，不过这四人拒绝透露姓名。其中一位消息人士称，「草莓」用到了后训练（post-training）方法，即在对大量通用数据进行训练后，调整基础模型以特定方式优化其性能。后训练阶段涉及微调等方法，这是当今几乎所有语言模型都采用的一种方法，它有多种形式，例如让人类根据模型的响应向模型提供反馈，并为模型提供好答案和坏答案样例。另据一位知情人士称，「草莓」与斯坦福大学 2022 年开发的一种名为 STaR（Self-Taught Reasoner）的方法有相似之处。STaR 的创建者之一、斯坦福大学教授 Noah Goodman 告诉路透社，STaR 方法使 AI 模型能够通过迭代创建自己的训练数据将自己「引导」到更高的智能水平，理论上可以用来让语言模型超越人类水平的智能。Goodman 教授表示，「草莓」的出现让他既兴奋又恐惧…… 如果事情继续朝这个方向发展，人类就需要认真思考一些问题了。「草莓」瞄准的功能之一是执行长期任务 (LHT，long-horizon tasks)，指的是需要模型提前规划并在较长时间内执行一系列操作的复杂任务，其中一位消息人士解释说。根据 OpenAI 内部文件，该公司正在利用名为「deep-research」的数据集创建、训练和评估模型。不过路透社无法确定该数据集中包含哪些内容，也无法确定长期任务意味着什么。根据该文件和其中一位消息人士的说法，OpenAI 特别希望其模型能够利用这些功能进行研究，即在 CUA（computer-using agent）的帮助下自主浏览网页，并根据其发现采取行动。OpenAI 还计划测试「草莓」在软件和机器学习工程师工作方面的能力。参考链接：https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/https://www.bloomberg.com/news/articles/2024-07-11/openai-sets-levels-to-track-progress-toward-superintelligent-ai
技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

OpenAI 绝密项目「草莓」曝光，前身为Q*，能实现高级推理

「草莓」成为克服众多挑战的关键

关于我们

相关推荐