新智元报道
编辑:编辑部 HXZGeoffrey Hinton(人工智能教父,被引用次数最多的AI科学家)
Ilya Sutskever(被引次数第三多的AI科学家)
Andrej Karpathy
陶哲轩:o1竟能识别出克莱姆定理
完整回答:https://shorturl.at/wwRu2
在下面这个例子中,提出的问题是更有挑战性的复变函数分析,结果同样好于之前的GPT系列模型。在有大量提示词和引导的情况下,o1能输出正确且表述良好的解决方案,但不足之处在于无法自行产生关键的概念性想法,而且犯了明显错误。陶哲轩形容,这种体验大致相当于指导一个能力一般但也能胜任部分工作的研究生,GPT给人的感觉则是一个完全无法胜任工作的学生。可能只需要经过一两次迭代,再加上其他工具的集成,比如计算机代数包和证明辅助工具,就能让o1模型蜕变为「称职的研究生」,届时这个模型将在研究任务中发挥重要作用。完整回答:https://shorturl.at/ZrJyK
上下滑动查看 上下滑动查看上下滑动查看第三个实验中,陶哲轩要求o1模型在证明辅助工具Lean中形式化一个定理,需要先将其分解为子引理并给出形式化表述,但不需要给出证明。定理的内容,具体来说,是将素数定理的一种形式建立为另一种形式的推论。实验结果也很不错,因为模型理解了这个任务,并对问题进行了合理的初步分解。然而,可能是因为训练数据中缺乏关于Lean及其数学函数库的最新数据,生成的代码中也有几处错误。尽管仍有缺陷,但这次实验结果已经能让人预见到o1在数学研究中的实际应用。类似的模型如果针对Lean和Mathlib进行微调,并集成到集成开发环境(IDE)中,在形式化项目中将会发挥极大的作用。在之前的多次演讲中,陶哲轩曾反复强调过AI工具在定理形式化中的应用,看来大神的预言又会成真了。
完整回答:https://shorturl.at/OGtjt
计算机教授用动画揭秘:o1如何花更多时间思考?
o1学会用CoT思考更长时间的过程中,究竟是取得了哪些重要突破,才造成了关键性的提升?目前我们只能从已有信息中做一些猜测。比如,基于已有信息和自己的理解,科罗拉多大学博尔德分校计算机教授Tom Yeh就专门制作了一个动画,讲解OpenAI是如何训练o1模型花更多时间思考的。关于训练,报告中有非常简短的一句话:「通过强化学习,o1 学会了磨练其思维链并改进策略。」这句话中的两个关键词是:强化学习(RL)和思维链(CoT)。在RLHF+CoT中,CoT token也会被输入到奖励模型中来获得分数,以更新LLM,从而实现更好的对齐;而在传统的RLHF中,输入只包含提示词和模型响应。
在推理阶段,模型学会了先生成CoT token(可能需要长达30秒的时间),然后才开始生成最终响应。这就是模型如何花更多时间去「思考」的方式。
Ilya Sutskever,基于人类反馈的强化学习(RLHF)的发明者,出现他的名字意味训练o1模型时仍然用到了RLHF。
Jason Wei,著名的思维链论文的作者。他去年离开Google Brain加入了OpenAI。他的出现意味着CoT现在是RLHF对齐过程的重要组成部分。
团队分享庆功视频,分享「啊哈」时刻
关于研究中取得重要突破的瞬间,在下面这个视频中,给了我们更多线索。在发布o1模型后,团队发布了背后团队一起制作的视频。
在视频中,有人表示,自己觉得研究中最酷的就是那个「啊哈」时刻了。
在某个特定的时间点,研究发生了意想不到的突破,一切忽然就变得很明了,仿佛顿悟一般灵光乍现。所以,团队成员们分别经历了怎样的「啊哈」时刻呢?有人说,他感觉到在训练模型的过程中,有一个关键的时刻,就是当他们投入了比以前更多的算力,首次生成了非常连贯的CoT。就在这一刻,所有人都惊喜交加:很明显,这个模型跟以前的有着明显的区别。还有人表示,当考虑到训练一个具备推理能力的模型时,首先会想到的,是让人类记录其思维过程,据此进行训练。对他来说,啊哈时刻就是当他发现通过强化学习训练模型生成、优化CoT,效果甚至比人类写的CoT还好的那一刻。这一时刻表明,我们可以通过这种方式扩展和探索模型的推理能力。这一位研究者说,自己一直在努力提升模型解决数学问题的能力。让他很沮丧的是,每次生成结果后,模型似乎从不质疑自己做错了什么。然而,当训练其中一个早期的o1模型时,他们惊奇地发现,模型在数学测试中的得分忽然有了显著提升。而且,研究者们可以看到模型的研究过程了——它开始自我反思、质疑自己。他惊叹道:我们终于做出了不一样的东西!这种感受极其强烈,那一瞬间,仿佛所有东西都汇聚到了一起。Open o1团队开放团队问答,直面质疑
OpenAI o1的命名代表了AI能力的新水平;计数器重置为1
「Preview」表示这是完整模型的早期版本
「Mini」意味着这是o1模型的较小版本,针对速度进行了优化
「o」代表OpenAI
o1不是一个「系统」;它是一个经过训练的模型,在返回最终答案之前生成长思维链
o1-mini能够探索比o1-preview更多的思维链
目前还没有办法在思维链推理过程中暂停以添加更多上下文,但正在为未来的模型探索这一功能
多模态能力已内置于o1中,可以在MMMU等任务中实现SOTA的性能
思考阶段看起来较慢是因为它总结了思考过程,而答案的生成通常更快
API中的提示缓存是一个很受欢迎的需求,但目前还没有时间表
反向扩展目前还不显著,但个人写作提示显示o1-preview的表现仅略优于GPT-4o(甚至略差)
计划在o1-mini的未来迭代中使用更新的数据(目前为2023年10月)
在检索增强生成(RAG)中提供相关上下文可以提高性能;不相关的块会对推理产生负面影响
正在积极改进延迟和推理时间
o1的创造性推理能力,如自问自答以衡量其能力,展示了其高水平的问题解决能力
https://mathstodon.xyz/@tao/109945628011027107
https://twitter-thread.com/t/1834686946846597281
https://x.com/ProfTomYeh/status/1834617696215806285
https://x.com/markchen90/status/1834623248610521523