六个问题带你看懂什么是理工科学霸-OpenAI o1!


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自 | 新智元

这篇主要会回答下面的问题(too long,don't read):

  • 什么是OpenAI o1?——一个擅长数学物理化学生物编程等问题的理科学霸大模型

  • OpenAI o1最大的技术特征是什么?——RL训练和推理,在传统COT之外隐藏了一个很长的内在COT,满足scaling law

  • OpenAI o1到底有多强?——断崖碾压GPT4-o,达到人类竞赛选手,以及博士生水平。

  • 人们更喜欢GPT4-o还是OpenAI o1?——文科方面o1没有优势,理工科方面碾压GPT4-o

  • OpenAI o1的安全性怎么样?—— 相比4o优势明显,更容易教会模型人类价值观和原则

  • OpenAI o1为什么要向用户隐藏内在思维过程?——为了安全性和用户体验(不想让大家蒸馏它的内在思维过程作为训练数据)

知乎:https://zhuanlan.zhihu.com/p/719859500

PS:“9.11和9.8谁大”的这个问题OpenAI o1依然存在问题!!!OpenAI o1模型是否被过誉,让子弹再飞一会!

什么是OpenAI o1?

OpenAI o1(后面简称o1)是OpenAI在2024.9.12号发布的最新大模型,主要针对的任务是复杂任务推理,比如竞赛难度的编程问题,奥赛难度的数学问题等。

参考OpenAI原始介绍: https://openai.com/index/learning-to-reason-with-llms/

OpenAI o1最大的技术特征是什么?

在训练阶段,会通过强化学习,让o1完善其思维链并优化所使用的策略。例如:识别并纠正错误,将复杂步骤拆分为简单步骤,当前方法不work时,换一种方法

在推理阶段,模型同样会在呈现给用户的cot之外,做一个更深的的所谓的long internal chain of thought,所以推理时间会更长,相当于COT套娃了,给COT再加一个COT(猜测是把MCTS搜索过程序列化了,case放在文末)。

值得注意的是,这次OpenAI依然主打了他们一直信奉的Scaling Law,在训练和测试时的时间都能和性能形成对数线性关系。

OpenAI o1到底有多强?

效果不用多说了,跟GPT4-o已经是断崖式差距了,在最难的数学,code,物理化学生物等benchmark上遥遥领先。

  • 在全美高中生数学竞赛AIME上,o1能达到74分(GPT4-o仅有12分),如果采样1000次,结合reward model加权投票能到93分,能排进全国前500名,超过USA Mathematical Olympiad的晋级分数线;

  • 在GPQA,一个关于物理,化学和生物的智力测试上,OpenAI招募了一群相关领域有博士学位的专家和o1同台竞技, o1能够在GPQA-diamond questions.上超过这群专家。

  • 在视觉感知能力后方面,o1 在 MMMU 上取得了 78.2% 的分数,成为第一个与人类专家媲美的模型。

值得注意的是,OpenAI在o1的基础上加强了模型的代码能力,以o1为初始化又训了一个o1-IOI,用于参加2024年的国际奥林匹克信息竞赛(2024 International Olympiad in Informatics), 在和人类选手相同的条件下,在10h内解决6道非常难的竞赛问题,每个问题最多允许提交50次。最终,o1-IOI能获得一个216分的分数,在放开提交次数后,o1-IOI能获得362.14,超过了金牌线。这种和人类顶尖选手同台竞技,才是最能反映模型能力的benchmark吧。在CodeForce上,打出了惊人的1807分。

人们更喜欢GPT4-o还是OpenAI-o1?

OpenAI测试了在不同领域的问答上,用GPT4-o和o1匿名回答,大家投票,结果显示,o1只是在理工科方面显著高于4o,比如编程,数据分析和数学题,但是在写作和文本编辑方面和4o相差无几,看起来o1确实是一个偏科的理工科选手。

OpenAI o1的安全性怎么样?

将模型需要遵循的准则融入内在COT中,可以高效且稳健鲁棒地教会模型人类偏好的价值和需要遵循的原则,不管是OpenAI内部的安全benchmark还是外部公开的benchmark,o1都能达到极高的水平。更具体的好处有两点:

  • 可以让我们(不是,是OpenAI,我们看不到)更清晰地看到模型内在的思维过程;

  • o1关于安全规则的模型推理对于分布外场景(OOD)更加稳健.

OpenAI o1为什么要对用户隐藏internal COT?

翻译了一下OpenAI的原话,主要是为了用户体验和安全问题:

“我们认为隐藏的思维链为监控模型提供了独特的机会。如果思维链忠实且易于理解,它允许我们“读懂”模型的内心并理解其思维过程。例如,将来我们可能希望监控思维链,以识别是否存在操纵用户的迹象。然而,为了实现这一点,模型必须能够以未经过滤的形式表达其想法,因此我们不能将任何政策合规性或用户偏好嵌入到思维链中。同时,我们也不希望让不对齐的思维链直接展示给用户。因此,在权衡用户体验、竞争优势以及追求思维链监控的选项后,我们决定不向用户展示原始的思维链。我们承认这一决定存在缺点。我们努力通过教模型在回答中重现思维链中的有用观点部分来弥补这一不足。对于o1模型系列,我们展示了模型生成的思维链摘要。”

但是实际上,我认为主要是不想让大家蒸馏它的内在思维过程作为训练数据。

一些关于内在思维链的Cases

都太长了,展示不下,知道最重要的一点就行:内在思维链比思维链长的长的多。

  • 编程题目

    • Write a bash script that takes a matrix represented as a string with format '[1,2],[3,4],[5,6]' and prints the transpose in the same format.

    • 思维链

    • 内在思维链

最后说一点

虽然OpenAI的o1从各方面来看很强,但对于“9.11和9.8谁大”的这个问题,依然回答存在错误。

可能是tokenizer的问题,不过现在还不确定,在 platform.openai.com/tokenizer 上还看不到。

让子弹在飞一会哈。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向(如:小张-哈工大-对话系统)即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

相关推荐

  • 顶刊TPAMI 2024!北理等提出FreqFusion,让CVPR投稿轻松涨点
  • 战胜100多位NLP研究人员!杨笛一团队最新百页论文:首次统计学上证明,LLM生成的idea新颖性优于人类
  • 中国最好的月色,被唐朝人写绝了
  • 11K Star 游戏创作神器 !!! 小白一下变大师级
  • 架构师必备底层逻辑:设计与建模
  • 低秩近似之路:伪逆(Pseudo Inverse)
  • Lombok常用注解介绍
  • 这个python库简直是office办公利器~
  • 实时数仓行业方案!
  • o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题
  • 倒计时三年:国产数据库100%替代走到哪了?
  • 作者硬核,内容透彻接地气的多模态大模型通识读本 | 留言赠书
  • 成都周报丨清华成立百亿母基金,成渝国资再次联手出资
  • 422页新书《构建实用的全栈机器学习指南》pdf下载
  • 大厂也是草台班子!
  • 超越AlphaFold3,OpenAI投资的AI生物初创发布Chai-1,分子结构预测新SOTA
  • 华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
  • 「LLM」这个名字不好,Karpathy认为不准确、马斯克怒批太愚蠢
  • DeepMind又损大将,AI总监Nando de Freitas离职,曾领导开发Gato、Genie
  • 北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式