o1 改变了 Scaling 范式?Self-Play 还值得 All In 吗?

机器之心PRO · 会员通讯 Week 37

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. o1 改变了 Scaling 范式?Self-Play 还值得 All In 吗?

OpenAI 的 o1 模型有质的突破吗?Scaling Law 的范式要变了吗?Self-Play 在新范式中重要吗?传统 Self-Play 技术发展如何?Self-Play+LLM 已经能训出更强的模型了吗?...

2. 你的赛博朋友上线!更易变现、门槛更低的 AI 情感陪伴类应用好用在哪?

AI 情感陪伴类应用增长迅速,踩中了用户的哪些需求?头部的 AI 情感陪伴类的应用有哪些?它们都有哪些共性特征?为什么说 AI 情感陪伴类应用的「钱途」并不明朗?从技术角度看,AI 情感陪伴类应用有哪些缺陷还未解决?...

3. Businessinsider 最新评选:2024 年 44 家最有前途的 AI 创企

44 家最有前途的 AI 创企都有哪些?集中在哪些领域?这些公司的业务情况、商业模式、融资情况...如何?为什么投资人看好的是这些公司?...


...本期完整版通讯含 3 项专题解读 + 26 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 6 项,国外方面 11 项。

本期通讯总计 32593 字,可免费试读至 9%  消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  o1 改变了 Scaling 范式?Self-Play 还值得 All In 吗?

日期:9 月 13 日事件:OpenAI 新发布的 o1 模型在数学和理科推理能力上取得极大突破,其技术博客隐隐指出 Scaling Law 的范式正在转向推理,且这种 Scaling 形式与预训练有很大不同。这一说辞和「草莓」火热期间所引发的 Scaling 范式转向 self-play RL 的讨论既有交叉,也有差异。o1 背后的技术和「草莓」传闻中一致吗?1、当地时间 9 月 12 日,OpenAI 公开了新模型 o1 和 o1-mini,可以实现复杂推理,由一个通用模型解决此前专门训练的科学、代码和数学模型能做到的更难的问题。[15]① 当前 OpenAI 在 ChatGPT 和 API 中发布的是 o1-preview 预览版。② 作为早期模型,o1 尚不具备网页浏览和上传图片/文件等 ChatGPT 已有的功能。2、根据 OpenAI 的技术博客,o1 的在数学和编程能力以及科学知识方面实现了大幅度的提升。[16]① 编程能力上,o1 在 Codeforces 竞赛模拟中的表现超过了 93% 的竞争者,Elo 评分为 1807(GPT-4o 的 Elo 评级为 808 分)② 数学能力上, o1 在 2024AIME 测试中,单次采后能答出 74%的问题(GPT4-o 仅答出 12%)。且 o1 在采样 1000 次并结合奖励模型加权投票后能解决 93% 问题,是全美学生前 500 名水平。③ 在物理,化学和生物领域的专业知识方面,o1 在 GPQA Diamond 上的表现超过了博士学位水平的人类专家,也是首次有模型在该基准测试上超越人类专家。3、技术博客介绍了 o1 的工作原理。有别于 GPT 系列,o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。① o1 模型的特点是「三思而后行」。通过训练,o1 在响应用户之前会先产生一个很长的内部思维链,完善自己的思维过程,尝试不同的策略,并认识到自己的错误。② 这种思考能力使 o1 在面对复杂问题时,能够像人类一样进行长时间的思考和推理,从而得出更加准确和深入的答案。4、OpenAI 团队表示,他们发现更多的强化学习(训练时计算)和更多的思考时间(测试时计算)能让 o1 的性能持续提高,且这种 Scaling 方法的限制与此前流行的预训练的限制有很大不同,他们仍在继续研究。5、围绕 OpenAI 在技术博客中对测试时计算(test-time compute)的发现,许多声音指出 Scaline Law 的范式正在从 Training-Time 转向 Inference-Time① 英伟达科学家 Jim Fan 表示,我们终于看到了 Inference-Time Scaling 范式在生产中的普及和部署。正如萨顿在「苦涩的一课」提到的「只有两种技术可以通过计算无限扩展:学习和搜索」。是时候将重点转移到后者了。[17]② OpenAI 研究员、德扑 AI 之父 Noam Brown 在社交平台介绍了 o1,并表示 o1 经过强化学习训练,在响应前通过 CoT 思考的模式为 Scaling 开辟了一个新的维度,我们不再受预训练的瓶颈限制,而是可以在推理时间上做 scaling。[18]6、然而,OpenAI 虽然在技术博客中分享了强化学习和 CoT 带来的帮助,但没有给出具体的细节。之前在草莓传言中有一种声音,强调了 self-play 是其中的关键。[19] [20] [21]① 对于 Scaling 推理时间的所需的奖励函数、成功标准、代码解释器的调用以及计算成本等问题,OpenAI 在技术博客和 system card 中并没有分享细节。② 在热点仍集中于「草莓」时,有媒体报道称草莓(和 Q*)的特点在于,它能够在向用户显示的响应过程中多次触发自我对话推理步骤(CoT)。与见过 Q* 输出的人交谈时,这种行为被描述为模型“自言自语”③ 上述消息来自 Q* 的首次泄露时的消息,当时它是一种语言模型的自博弈(self-play),而对于几乎相同的语言模型来说,self-talk 和 self-play 之间的界限可以忽略不计。唯一的区别在于模型的提示方式。④ 在此语境下,有观点认为预训练已经耗尽网络上的数据,用 self-play 自主探索选出更高质量的资料来学习才是长期更 scalable 的路径。被带火的 Self-Play RL 当前发展如何?[22]2024 年 8 月初,清华大学、北京大学、第四范式、腾讯和清华-伯克利深圳学院研究者于 arxiv 上传了 self-play 主题综述《A Survey on Self-play Methods in Reinforcement Learning》,梳理了 self-play 的技术背景和概念,现有的 self-play 算法、经典博弈场景和该技术的挑战与未来研究方向。1、在背景介绍部分,该综述分别介绍了强化学习框架以及博弈论基本知识。① 强化学习框架部分介绍了最普遍的形式,即部分可观察的马尔可夫博弈(partially observable Markov game, POMGs),也就是多智能体场景,且其中每个智能体无法完全获取环境的全部状态。② 博弈论基本知识方面,该小节介绍了博弈的具体类型,如(非)完美信息博弈和(非)完全信息博弈、标准型博弈和扩展型博弈等;还介绍了博弈论框架重要概念,包括最佳回应和纳什均衡 (Nash equilibrium, NE)等。③ 复杂的博弈场景分析通常采用更高层次的抽象。在这种高层次抽象下,复杂博弈场景可以看作是特殊的标准型博弈,策略集合由复杂策略组成。元策略则是对策略集合中的复杂策略进行概率分配的混合策略。④该小节还介绍了常用的 self-play 评估指标,包括 Nash convergence(NASHCONV)、Elo、Glicko、Whole-History Rating(WHR) 和 TrueSkill。2、综述提出了一个统一框架,并在此框架下将现有的 self-play 算法分为四类,从而进行系统的比较和分析。3、第一类是传统 self-play 算法。这些算法从单一策略开始,通过让智能体(agent)反复与自己对战来改进策略,逐步扩展策略池,从而在没有外部输入的情况下探索各种策略并提高决策能力。① 传统 self-play 算法在初始化策略池时使用占位符初始化,每次迭代中只选择一个无效策略进行训练,将其转化为有效策略;策略更新过程中,策略池的大小保持不变;不需要条件函数。② 代表性的传统 self-play 算法有 Vanilla self-play,Fictitious self-play、δ-uniform self-play,Prioritized Fictitious Self-play 和 Independent RL。4、第二类是 PSRO 算法(Policy Space Response Oracle, PSRO),这种算法通过引入新的预言机来扩展策略空间,这些预言机近似其他代理的当前元策略。① PSRO 使用 EGTA 来更新元策略分布,从而在策略选择中引入探索性,以减少过拟合的风险。② 相较于传统 self-play 算法,PSRO 算法会使用复杂的元策略求解器(MSS)。、③ 代表性的 PSRO 算法有 Double Oracle (DO)、PSRO、α-PSRO、JPSRO、R-NaD 等。5、第三类是基于持续训练的算法(Ongoing-training-based Series),这种算法不会逐步扩展策略池,而是通过在整个策略池上重复训练所有策略来增强所有策略,旨在在每个时期同时强化所有策略。① 基于持续训练的算法在初始化策略池时使用实际初始化,每个策略在整个策略池中进行多次迭代训练;策略更新过程中,策略池的大小保持不变;不需要条件函数。② 代表性的算法有 FTW、NeuPL 和 Simplex-NeuPL。6、第四类是基于遗憾最小化的系列算法(Regret-minimization-based Series),这种算法侧重于随时间累积收益,而不是单个回合的表现。它们通常用于需要策略欺骗、隐藏和虚张声势的游戏,如德州扑克。① 这类算法的每个策略在整个策略池中进行多次迭代训练;策略更新过程中,策略池的大小保持不变;需要存储每个信息集和潜在动作的反事实遗憾值。

② 代表性的算法有 Vanilla CFR、CFR+、CFR-D、RCFR 和 Deep CFR。

图:各类 self-play 算法比较与总结[22]

7、综述通过三类经典场景 介绍了 self-play 的经典应用,包括:棋类游戏,通常涉及完全信息;牌类游戏(包括麻将),通常涉及不完全信息;以及电子游戏,具有实时动作而非简单回合制游戏。

相关推荐

  • 张俊林:OpenAI o1的价值意义及强化学习的Scaling Law
  • 李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光
  • 京东又又又加薪了,同时扩招1.8万个岗位!
  • 腾讯回应滨海大楼不雅视频事件
  • “你的开源项目真不错,但跟我的闭源软件功能类似,所以希望你能闭源,好方便我割韭菜”
  • 上班摸鱼刷题,不会再被抓了~
  • 我最好的朋友,润到国外留学了。。
  • 首批国自然博士项目获批名单
  • 【机器学习】几种常见的机器学习分类模型及代码实现
  • 某211副教授自爆“评职称”历程:评审内幕堪比小说!
  • 【RAG】再看RAG中不同粒度的引文类型及细粒度句子级引用生成方案LongCite
  • 大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进:刘说NLP技术社区持续对外纳新
  • 【一手测评】OpenAI 震撼发布 o1 大模型!
  • 字节开始卡学历了。。。
  • 谷歌在 YouTube 上利用 Transformer 架构进行音乐推荐
  • 与顶尖专家一起深入VLDB 2024,洞悉数据库技术的未来趋势 | Q推荐
  • 中小银行如何通过组织力建设与人才培养推动数字化转型?
  • 从淘宝用户增长到生成式大模型:5 年,我的思考变了?
  • 如何让 var [a, b] = {a: 1, b: 2} 解构赋值成功?
  • 干货收藏!如何写一篇高质量的技术文章?