机器之心PRO · 会员通讯 Week 29
---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----
1. 「后训练 + STaR」是 OpenAI 绝密项目「草莓」背后的秘密吗?
「草莓」的来龙去脉了解一下?「草莓」真的有望实现类人推理和长期任务执行吗?有哪些工作能侧面映出「草莓」的真实面目?为什么 Sam Altman 表示「今年最重要的进步将围绕推理能力展开」?OpenAI、DeepMind 各家提升模型推理能力的路径方法有何区别?...
2. 谁能活到下一轮?大模型&AIGC 创企生存现状一撇
哪些美国AI创企更受老牌资本青睐?融到巨款大模型公司都做什么产品?Stability AI要峰回路转了吗?Character AI 在下什么棋?今年都有哪些大牛投身大模型和 AIGC 创业了?...
3. 信通院报告:为什么大模型进行基准测试很重要?
大模型基准测试意义何在?当前大模型基准测试有何体系?现有的基准测试存在什么问题?信通院的「方升」表现如何?...
...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 4 项,国外方面 15 项。
本期通讯总计 30714 字,可免费试读至 11% 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读① 「后训练 + STaR」是 OpenAI 绝密项目「草莓」背后的秘密吗?
日期:7 月 13 日事件:据媒体报道,OpenAI 内部正在一个代号为「草莓(Strawberry)」的项目中开发一种新的人工智能模型。据媒体对十多位人工智能研究人员的采访判断称,「草莓」项目的推理能力是迄今为止人工智能模型一直无法实现的。「草莓」项目来龙去脉全解析 [1] [2]1、外媒路透社报道称,OpenAI 内部正在开发代号为「草莓」的项目,能够为 AI 模型提供高级推理能力。据媒体引用知情人士消息称,「草莓」项目目的是让公司的 AI 不仅能生成查询答案,还能提前规划,以便自主、可靠地浏览互联网,进行 OpenAI 所称的「深度研究」。2、据报道,「草莓」项目拥有两方面的功能,一是拥有类似人类的新推理能力,另一功能是执行长期任务。① 据媒体彭博社报道,在 OpenAI 内部全员会议上,OpenAI 展示了一个研究项目的演示,并声称该项目拥有类似人类的新推理能力。据知情人士称,「草莓」涉及一种专门处理人工智能模型的方法,已在非常大的数据集上进行过预训练。据 OpenAI 内部文件,其正在利用名为「deep-research」的数据集创建、训练和评估模型。② 另一功能是执行长期任务,指的是需要模型提前规划并在较长时间内执行一系列操作的复杂任务。3、「草莓」项目的前身是 Q*,即在此前引起众多传闻的 Q * 项目。据早前的媒体报道,① OpenAI 在发给员工的内部信息中承认了一个名为 Q * 的项目,并在 Altman 被开除之前致信董事会。Q*项目被认为是 CEO Sam Altman 被董事会开除的导火索。② 据知情人士称,今年早些时候,其观看了 OpenAI 工作人员告诉他们为 Q* demo 的演示,Q* 能够回答棘手的科学和数学问题,而这些问题是目前市面上的模型无法企及的。③ 据悉,Q-Star 能够解决以前从未见过的数学问题,研究人员认为,这可以应用于新颖的科学研究等方面。一些内部人士认为,这可能是 OpenAI 在追寻超级智能 / 通用人工智能(AGI)道路上取得的一项突破。4、关于绝密项目「草莓」,媒体报道中存在各种猜测,① 「草莓」用到了后训练(post-training)方法,即在对大量通用数据进行训练后,调整基础模型以特定方式优化其性能。②「草莓」与斯坦福大学 2022 年开发的一种名为 STaR(Self-Taught Reasoner)的方法有相似之处。5、OpenAI 将 AGI 划分为了 5 个等级,OpenAI 认为,公司目前处于第一级「聊天机器人」,但即将达到第二级「推理者」,预计将在一年或一年半内实现。将大模型推理能力带入下一个 level?「草莓」项目如何解锁类人推理和长期任务两大能力?1、上文提到,「草莓」项目的两大功能分别为类人类的推理能力和执行长期任务,而现有目前市面上的大语言模型仅能实现对话能力和简单的推理能力。例如,近期热议的关于 9.11 和 9.9 哪个更大的问题,GPT-4o、Gemini 等主流模型无一例外均答错。2、语言模型(LMs)在推理任务中的应用,核心思路主要集中在通过训练模型来解决复杂问题。这些任务通常涉及理解文本的含义,并在此基础上进行逻辑推理,以预测或生成文本。思路不同,做法也不同:[3] [4]① 一种最常用的做法是通过预训练和微调,通过在大量文本数据上预训练语言模型,使其能够捕捉语言的复杂模式和结构。以及在特定任务上对预训练模型进行微调,以提高其在特定推理任务上的表现;② 生成思考链是近期较为热门的一种做法,一些研究表明语言模型在给定一些支撑的情况下,能够生成有助于解决问题的思考链解决方案。这种方法不需要额外的监督,可以自主生成推理过程。③ 利用语言模型自身进行推理,即通过训练语言模型生成自己的推理过程,而不是依赖于外部数据集。这种方法可以看作是自我对弈策略的延伸,其中模型通过迭代训练来解决越来越难的问题。④ 训练语言模型进行推理,包括挖掘推理轨迹和自我生成推理两种方向,通过在挖掘的推理轨迹或类似推理的数据上训练语言模型,可以提高其推理能力,但需要手动注释,成本较高,且难以扩展;而自我生成推理依赖于语言模型自身生成的推理,避免了手动注释的需求。2、根据目前「草莓」项目被爆出的相关信息线索,「草莓」与斯坦福大学计算机和谷歌研究院的 STaR 系列工作十分相似,也许可以从 STaR 系列工作中观察到「草莓」项目类似的实现思路。STaR 系列工作包含两篇技术论文工作,分别是 2022 年 5 月发布的《STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning》和今年 3 月发布的《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》。3、在第一篇工作「STaR(Self-Taught Reasoner)」中,研究者发现,显式的中间推理可以提高大型语言模型(LLM)在诸如数学或常识问答等复杂推理任务中的表现。研究者提出了一种可扩展的自举方法「STaR」,允许模型学习生成自己的理由,同时学习解决越来越困难的问题。该工作的创新点在于不依赖大规模人工标注的数据集进行训练,通过自举的方式让大模型自己学会如何推理。[5]① 简单来说,研究者一开始把少量带有推理步骤的样本作为示范,与待推理的问题一起输入给模型。模型生成每个问题的推理步骤和答案,从中筛选出推理结果正确的样本,将其作为新的训练数据。同时,对于无法正确推理的问题,研究者引入了「反向推理」机制,将正确答案作为提示,让模型倒推对应的推理步骤,将生成结果并入训练集。最终,研究者用新的训练数据微调原始语言模型,重复进行推理生成,直至性能趋于稳定。4、Quiet-STaR 则是在「STaR」工作的基础上进行了延展,通过从问答数据集中采样理由来引导语言模型自我提升其推理能力,Quiet-STaR 的目标是让语言模型学会在任意文本中推断未明确表述的理由。[3]① 相比于 STaR,Quiet-STaR 把推理过程的生成从显式的思考变成了隐式的内部思考,实现了对推理过程的静默建模。不同于 STaR 在输入中明确包含生成推理步骤的 prompt,Quiet-STaR 直接在模型内部、每个 token 处并行地生成推理过程。② 简单来说,Quiet-STaR 是通过在每个标记之后生成解释未来文本的理由(思考),混合有无理由的未来文本预测(说话),然后使用 REINFORCE 学习生成更好的理由(学习)。
- 并行采样算法:为了有效地在输入序列的每个标记位置生成推理,Quiet-STaR 提出了并行采样算法,通过缓存每个前向传播并使用对角线注意力掩码来实现高效生成,允许模型并行生成多个推理候选。
- 自定义的元标记:Quiet-STaR 引入了自定义的开始和结束思想的元标记(
<start thought>
和 <end thought>
),这些标记帮助语言模型学习何时生成推理以及何时根据该推理进行预测。
- 混合头(Mixing Head):Quiet-STaR 使用了一个混合头,是一个浅层的多层感知机(MLP),用于确定在给定的标记上,应该在多大程度上使用包含推理的下个标记预测与基础语言模型预测之间的混合。
- REINFORCE 优化:Quiet-STaR 使用 REINFORCE 算法来优化推理生成参数,增加对未来文本更有概率的推理的生成可能性。该方法可以鼓励模型生成有助于预测未来文本的推理,同时丢弃那些使未来文本预测变得不太可能的推理。
- 非短视损失(Non-myopic Loss):Quiet-STaR 不仅仅考虑下一个标记的预测,而是采用一个包含多个未来标记的损失函数,从而提高推理的效果。
③ 实验结果显示,使用 Quiet-STaR 训练的 LLM 在直接回答困难问题方面表现出显著改进,理由引发的推理过程使 LLM 更有效地处理复杂问题。同时,Quiet-STaR 导致推理基准(GSM8K 和 CommonsenseQA)上的性能提升,无需在这些特定任务上进行任何微调。此外,Quiet-STaR 明显降低了困惑度,即一个指示预测序列中下一个单词难度的度量,使得 LLM 的整体文本生成过程更加顺畅和高效。5、除了 STaR 系列工作外,媒体报道中还提到了后训练(post-training)方法。据媒体引用消息人士称,「草莓」用到了后训练(post-training)方法,即在对大量通用数据进行训练后,调整基础模型以特定方式优化其性能。① 后训练是在模型的初始预训练阶段之后,进一步对模型进行训练的过程。这个阶段通常使用的数据集比预训练阶段的数据集更专注于某个领域或任务,但比微调阶段使用的数据集更大、更广泛。其目的是在不过度专化到某个特定任务的同时,提高模型对特定领域的理解和表现。② 在 Meta 推出 Llama 3 的介绍中,也提到了后训练的重要性,“我们在后训练阶段投入了大量的工作,我想大家都喜欢谈论预训练,以及我们扩大了规模,使用的 GPU 数量达到了数万个,以及在预训练中使用了多少数据,但实际上,真正的关键在于后训练阶段。6、除了 STaR 系列工作外,关于「草莓」项目的前身 Q*的推测,也能带来一些线索。(详细内容见会员通讯 Week 47&Week 10)