【一手测评】OpenAI 震撼发布 o1 大模型!

今天凌晨一点,OpenAI 悄无声息地发布了 OpenAI o1。

GPT-4o竟然被碾压至此!!!

GPT-4o竟然被碾压至此!!!

风声四起的Q*模型,最早的消息来自去年十一月份。而前段时间一直在预热,代号为“草莓”的模型也宣传在几周内的秋季发布。据官方消息,这个系列的模型可以推理完成复杂任务,并解决许多以前的模型解决不了的问题。今天,它们终于现出真身,以 o1 为正式名字,闪亮登场!

模型名字中的 o 指代的是 Orion「猎户座」,而 o1 名字中“1”的由来在开发文档中得到了解释:

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1. 

对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。有鉴于此,我们将计数器重置为 1,并将此系列命名为 OpenAI o1。

奥特曼在凌晨一点发推,「需要更多耐心的时代结束了!」

从官方发布的各种消息来看,这次突然发布的o1系列,三个型号分别为:

  • o1,新的大模型天花板,过于强大目前不方便对外公开。

  • o1-preiview,o1的预览版,可以立即提供给ChatGPT付费用户和API用户。

  • o1-mini,速度更快、性价比更高,适用于需要推理和无需广泛世界知识的任务。

和往常一样打开 ChatGPT 官网,可以看到 o1 已经可以使用了。本次同时发布了两个版本,分别是 o1-preview 和 o1-mini,preview作为正式版本的预览发布,而 mini 版本就是一个体量更小、开销更小且速度更快的模型。

既然本次发布的模型侧重点是“推理”,o1的能力,究竟怎样?

那么,中秋节快要到了,我们让o1来帮我们计算一下要如何调休,能实现吗?

输入:今年中秋节是9月15日和9月16日,这两天是周一和周二,应该怎么调休?

事实上,在我提的这个问题里面,我给出的所有信息都是错误的。中秋节只有一天,仔细观察也能发现,具体的时间和星期几也都不对,o1会如何处理这个问题呢?

模型先进行了为时17秒的思考,最初,我们能看到模型在进行“头脑风暴”。「正在思考」的字样逐渐在「查看假期安排」、「核实日期信息」等推理步骤中切换。

根据解答可以发现,即使我给出的信息带有错误,模型也能及时根据真实的情况进行搜索分析,从而给出正确的答案。

现在,我们点开o1对话框上面的思考xx秒按钮查看模型完整的思考过程:

非常严谨!正确的日期信息、节日安排以及放假规划在推理过程中都得到了体现。

那么,针对之前各大AI大模型“华山论剑”的问题——13.9与13.11比大小,o1的表现如何?截止o1发布前的9月11日,GPT-4o仍然无法对这个问题给出正确回答。那么,o1会如何分析?

无论是分整数、小数比较,还是在不足位的部分补“0”,o1 都使用了人类生活中常用的推理方法,且给出了正确的答案及解释。

似乎这还远远没有到达 o1 能力的上限。我们再搬出2024年新高考一卷数学的压轴题,让 o1 尝试分析。

这一次,o1 使用了较长的时间进行分析,且三个小问需要分别解答。经过大约两分钟的推理,模型给出了三个小问的完整分析。

由于二三小问都是证明题,证明过程较长,这里就不展示所有的推理过程了。不过经过仔细比对,似乎 o1 真的能实现“自圆其说”,使用较为正确的推理策略。

经过进一步测试,倒数第二道导数大题能成功解决前两个小问,而第三问的解答中出现了步骤遗漏,给出了b>0的答案(实际的答案是b大于等于2/3)。

最后,我们再拿出之前问倒 GPT-4o 的阿里巴巴数学竞赛题对 o1 进行挑战。

这次,我们选取2024年数竞题目的前五题。

最后经过测试,只要能跑出答案,正确率差不多能有60% ,部分推理过程比答案简略的多,比如分类讨论的情况少了,导致答案错误。且在有些推理过程中o1会莫名其妙的停止推理不再回复,点刷新也没有反应。

根据官方发布的能力图可以发现,对于类似的数学竞赛 AIME,4o的正确率只有13.4%,而本次的 preview 版本能达到56.7% ,惊人的是,尚未发布的正式版 o1 居然有高达83.3%的正确率!比较其他能力如 CodeForce 算法竞赛等,对于这些复杂的推理问题,o1 的正确率来到了一个新的高度,比先前最强的 GPT-4o高出了几十个百分点,可以说,实现了全面碾压。

整体体验下来,o1 的推理能力确实很强,正确率很高。不过,o1 经常会在推理的过程中“宕机”,需要重新进行提问,可以是目前测试的人太多。

与GPT-4o相比,o1在数理化生、英语法律经济等各种科目都有不同成绩改进。

不过新模型的费用有些离谱:o1-preiview每周30条,o1-mini每周50条。

是每周,每周就能跑 30 条,看来 o1 模型推理成本很高了。

API 的价格上,o1-preiview每百万输入15美元,每百万输出60美元。

o1-mini会便宜一些,每百万输入3美元,每百万输出12美元。

输出成本都是推理成本的4倍,对比一下GPT4o,分别是5美元和15美元。

那么未来 o1 是否会成为主流?o1 绝对不止是一个普普通通的ChatGPT。

“在通往 AGI 的道路上,我们已再无阻碍。”

AGI 的新时代。

在今天,正式揭幕。


推荐阅读

(点击标题可跳转阅读)

《机器学习 100 天》视频讲解

公众号历史文章精选

我的深度学习入门路线


重磅

1700多页的《人工智能学习路线、干货分享全集》PDF文档



扫描下方二维码,添加我的微信,领取1700多页的《人工智能学习路线、干货分享全集》PDF文档(一定要备注:资料。 



长按扫码,申请入群



感谢你的分享,点赞,在看三  

相关推荐

  • 字节开始卡学历了。。。
  • 谷歌在 YouTube 上利用 Transformer 架构进行音乐推荐
  • 与顶尖专家一起深入VLDB 2024,洞悉数据库技术的未来趋势 | Q推荐
  • 中小银行如何通过组织力建设与人才培养推动数字化转型?
  • 从淘宝用户增长到生成式大模型:5 年,我的思考变了?
  • 如何让 var [a, b] = {a: 1, b: 2} 解构赋值成功?
  • 干货收藏!如何写一篇高质量的技术文章?
  • 吊炸了,OpenAI重磅推出o1模型
  • 如何打造一个属于前端人自己的知识库!
  • 不知道如何写出心仪的文字?来试试5分钟能写上万字论文这款AI论文助手!
  • 年仅34岁!985高校教授、博导突发心梗逝世
  • 全栈开发要掌握什么技术?
  • 干货:JavaScript代码优化技巧
  • 分享一款 最新可视化开发平台:GoVirw
  • 推理能力超博士,OpenAI发布最强模型o1
  • 来啦,传说中的 新模型终于来了,OpenAI o1 登场
  • 爆了!又一款高性能、无侵入的 Java 性能监控神器!
  • LLM 新范式:OpenAI o1,self-play RL 和 AGI 下半场
  • 面向软件工程的AI智能体最新进展,复旦、南洋理工、UIUC联合发布全面综述
  • 李彦宏内部讲话流出:曝大模型「刷榜」潜规则,谈三大认知误区