o1 改变了 Scaling 范式？Self-Play 还值得 All In 吗？

机器之心PRO · 会员通讯 Week 37

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. o1 改变了 Scaling 范式？Self-Play 还值得 All In 吗？

OpenAI 的 o1 模型有质的突破吗？Scaling Law 的范式要变了吗？Self-Play 在新范式中重要吗？传统 Self-Play 技术发展如何？Self-Play+LLM 已经能训出更强的模型了吗？...

2. 你的赛博朋友上线！更易变现、门槛更低的 AI 情感陪伴类应用好用在哪？

AI 情感陪伴类应用增长迅速，踩中了用户的哪些需求？头部的 AI 情感陪伴类的应用有哪些？它们都有哪些共性特征？为什么说 AI 情感陪伴类应用的「钱途」并不明朗？从技术角度看，AI 情感陪伴类应用有哪些缺陷还未解决？...

3. Businessinsider 最新评选：2024 年 44 家最有前途的 AI 创企

44 家最有前途的 AI 创企都有哪些？集中在哪些领域？这些公司的业务情况、商业模式、融资情况...如何？为什么投资人看好的是这些公司？...

...本期完整版通讯含 3 项专题解读 + 26 项本周 AI & Robotics 赛道要事速递，其中技术方面 9 项，国内方面 6 项，国外方面 11 项。

本期通讯总计 32593 字，可免费试读至 9% 消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① o1 改变了 Scaling 范式？Self-Play 还值得 All In 吗？

日期：9 月 13 日事件：OpenAI 新发布的 o1 模型在数学和理科推理能力上取得极大突破，其技术博客隐隐指出 Scaling Law 的范式正在转向推理，且这种 Scaling 形式与预训练有很大不同。这一说辞和「草莓」火热期间所引发的 Scaling 范式转向 self-play RL 的讨论既有交叉，也有差异。o1 背后的技术和「草莓」传闻中一致吗？1、当地时间 9 月 12 日，OpenAI 公开了新模型 o1 和 o1-mini，可以实现复杂推理，由一个通用模型解决此前专门训练的科学、代码和数学模型能做到的更难的问题。[15]① 当前 OpenAI 在 ChatGPT 和 API 中发布的是 o1-preview 预览版。② 作为早期模型，o1 尚不具备网页浏览和上传图片/文件等 ChatGPT 已有的功能。2、根据 OpenAI 的技术博客，o1 的在数学和编程能力以及科学知识方面实现了大幅度的提升。[16]① 编程能力上，o1 在 Codeforces 竞赛模拟中的表现超过了 93% 的竞争者，Elo 评分为 1807（GPT-4o 的 Elo 评级为 808 分）② 数学能力上， o1 在 2024AIME 测试中，单次采后能答出 74%的问题（GPT4-o 仅答出 12%）。且 o1 在采样 1000 次并结合奖励模型加权投票后能解决 93% 问题，是全美学生前 500 名水平。③ 在物理，化学和生物领域的专业知识方面，o1 在 GPQA Diamond 上的表现超过了博士学位水平的人类专家，也是首次有模型在该基准测试上超越人类专家。3、技术博客介绍了 o1 的工作原理。有别于 GPT 系列，o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。① o1 模型的特点是「三思而后行」。通过训练，o1 在响应用户之前会先产生一个很长的内部思维链，完善自己的思维过程，尝试不同的策略，并认识到自己的错误。② 这种思考能力使 o1 在面对复杂问题时，能够像人类一样进行长时间的思考和推理，从而得出更加准确和深入的答案。4、OpenAI 团队表示，他们发现更多的强化学习（训练时计算）和更多的思考时间（测试时计算）能让 o1 的性能持续提高，且这种 Scaling 方法的限制与此前流行的预训练的限制有很大不同，他们仍在继续研究。5、围绕 OpenAI 在技术博客中对测试时计算（test-time compute）的发现，许多声音指出 Scaline Law 的范式正在从 Training-Time 转向 Inference-Time① 英伟达科学家 Jim Fan 表示，我们终于看到了 Inference-Time Scaling 范式在生产中的普及和部署。正如萨顿在「苦涩的一课」提到的「只有两种技术可以通过计算无限扩展：学习和搜索」。是时候将重点转移到后者了。[17]② OpenAI 研究员、德扑 AI 之父 Noam Brown 在社交平台介绍了 o1，并表示 o1 经过强化学习训练，在响应前通过 CoT 思考的模式为 Scaling 开辟了一个新的维度，我们不再受预训练的瓶颈限制，而是可以在推理时间上做 scaling。[18]6、然而，OpenAI 虽然在技术博客中分享了强化学习和 CoT 带来的帮助，但没有给出具体的细节。之前在草莓传言中有一种声音，强调了 self-play 是其中的关键。[19] [20] [21]① 对于 Scaling 推理时间的所需的奖励函数、成功标准、代码解释器的调用以及计算成本等问题，OpenAI 在技术博客和 system card 中并没有分享细节。② 在热点仍集中于「草莓」时，有媒体报道称草莓（和 Q*）的特点在于，它能够在向用户显示的响应过程中多次触发自我对话推理步骤（CoT）。与见过 Q* 输出的人交谈时，这种行为被描述为模型“自言自语”③ 上述消息来自 Q* 的首次泄露时的消息，当时它是一种语言模型的自博弈（self-play），而对于几乎相同的语言模型来说，self-talk 和 self-play 之间的界限可以忽略不计。唯一的区别在于模型的提示方式。④ 在此语境下，有观点认为预训练已经耗尽网络上的数据，用 self-play 自主探索选出更高质量的资料来学习才是长期更 scalable 的路径。被带火的 Self-Play RL 当前发展如何？[22]2024 年 8 月初，清华大学、北京大学、第四范式、腾讯和清华-伯克利深圳学院研究者于 arxiv 上传了 self-play 主题综述《A Survey on Self-play Methods in Reinforcement Learning》，梳理了 self-play 的技术背景和概念，现有的 self-play 算法、经典博弈场景和该技术的挑战与未来研究方向。1、在背景介绍部分，该综述分别介绍了强化学习框架以及博弈论基本知识。① 强化学习框架部分介绍了最普遍的形式，即部分可观察的马尔可夫博弈（partially observable Markov game， POMGs），也就是多智能体场景，且其中每个智能体无法完全获取环境的全部状态。② 博弈论基本知识方面，该小节介绍了博弈的具体类型，如（非）完美信息博弈和（非）完全信息博弈、标准型博弈和扩展型博弈等；还介绍了博弈论框架重要概念，包括最佳回应和纳什均衡（Nash equilibrium， NE）等。③ 复杂的博弈场景分析通常采用更高层次的抽象。在这种高层次抽象下，复杂博弈场景可以看作是特殊的标准型博弈，策略集合由复杂策略组成。元策略则是对策略集合中的复杂策略进行概率分配的混合策略。④该小节还介绍了常用的 self-play 评估指标，包括 Nash convergence（NASHCONV）、Elo、Glicko、Whole-History Rating（WHR）和 TrueSkill。2、综述提出了一个统一框架，并在此框架下将现有的 self-play 算法分为四类，从而进行系统的比较和分析。3、第一类是传统 self-play 算法。这些算法从单一策略开始，通过让智能体（agent）反复与自己对战来改进策略，逐步扩展策略池，从而在没有外部输入的情况下探索各种策略并提高决策能力。① 传统 self-play 算法在初始化策略池时使用占位符初始化，每次迭代中只选择一个无效策略进行训练，将其转化为有效策略；策略更新过程中，策略池的大小保持不变；不需要条件函数。② 代表性的传统 self-play 算法有 Vanilla self-play，Fictitious self-play、δ-uniform self-play，Prioritized Fictitious Self-play 和 Independent RL。4、第二类是 PSRO 算法（Policy Space Response Oracle， PSRO），这种算法通过引入新的预言机来扩展策略空间，这些预言机近似其他代理的当前元策略。① PSRO 使用 EGTA 来更新元策略分布，从而在策略选择中引入探索性，以减少过拟合的风险。② 相较于传统 self-play 算法，PSRO 算法会使用复杂的元策略求解器（MSS）。、③ 代表性的 PSRO 算法有 Double Oracle （DO）、PSRO、α-PSRO、JPSRO、R-NaD 等。5、第三类是基于持续训练的算法（Ongoing-training-based Series），这种算法不会逐步扩展策略池，而是通过在整个策略池上重复训练所有策略来增强所有策略，旨在在每个时期同时强化所有策略。① 基于持续训练的算法在初始化策略池时使用实际初始化，每个策略在整个策略池中进行多次迭代训练；策略更新过程中，策略池的大小保持不变；不需要条件函数。② 代表性的算法有 FTW、NeuPL 和 Simplex-NeuPL。6、第四类是基于遗憾最小化的系列算法（Regret-minimization-based Series），这种算法侧重于随时间累积收益，而不是单个回合的表现。它们通常用于需要策略欺骗、隐藏和虚张声势的游戏，如德州扑克。① 这类算法的每个策略在整个策略池中进行多次迭代训练；策略更新过程中，策略池的大小保持不变；需要存储每个信息集和潜在动作的反事实遗憾值。

② 代表性的算法有 Vanilla CFR、CFR+、CFR-D、RCFR 和 Deep CFR。

图：各类 self-play 算法比较与总结[22]

7、综述通过三类经典场景介绍了 self-play 的经典应用，包括：棋类游戏，通常涉及完全信息；牌类游戏（包括麻将），通常涉及不完全信息；以及电子游戏，具有实时动作而非简单回合制游戏。

o1 改变了 Scaling 范式？Self-Play 还值得 All In 吗？

要事解读① o1 改变了 Scaling 范式？Self-Play 还值得 All In 吗？

相关推荐