【一手测评】OpenAI 震撼发布 o1 大模型！

今天凌晨一点，OpenAI 悄无声息地发布了 OpenAI o1。

GPT-4o竟然被碾压至此！！！

风声四起的Q*模型，最早的消息来自去年十一月份。而前段时间一直在预热，代号为“草莓”的模型也宣传在几周内的秋季发布。据官方消息，这个系列的模型可以推理完成复杂任务，并解决许多以前的模型解决不了的问题。今天，它们终于现出真身，以 o1 为正式名字，闪亮登场！

模型名字中的 o 指代的是 Orion「猎户座」，而 o1 名字中“1”的由来在开发文档中得到了解释：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。有鉴于此，我们将计数器重置为 1，并将此系列命名为 OpenAI o1。

奥特曼在凌晨一点发推，「需要更多耐心的时代结束了！」

从官方发布的各种消息来看，这次突然发布的o1系列，三个型号分别为：

o1，新的大模型天花板，过于强大目前不方便对外公开。
o1-preiview，o1的预览版，可以立即提供给ChatGPT付费用户和API用户。
o1-mini，速度更快、性价比更高，适用于需要推理和无需广泛世界知识的任务。

和往常一样打开 ChatGPT 官网，可以看到 o1 已经可以使用了。本次同时发布了两个版本，分别是 o1-preview 和 o1-mini，preview作为正式版本的预览发布，而 mini 版本就是一个体量更小、开销更小且速度更快的模型。

既然本次发布的模型侧重点是“推理”，o1的能力，究竟怎样？

那么，中秋节快要到了，我们让o1来帮我们计算一下要如何调休，能实现吗？

输入：今年中秋节是9月15日和9月16日，这两天是周一和周二，应该怎么调休?

事实上，在我提的这个问题里面，我给出的所有信息都是错误的。中秋节只有一天，仔细观察也能发现，具体的时间和星期几也都不对，o1会如何处理这个问题呢？

模型先进行了为时17秒的思考，最初，我们能看到模型在进行“头脑风暴”。「正在思考」的字样逐渐在「查看假期安排」、「核实日期信息」等推理步骤中切换。

根据解答可以发现，即使我给出的信息带有错误，模型也能及时根据真实的情况进行搜索分析，从而给出正确的答案。

现在，我们点开o1对话框上面的思考xx秒按钮查看模型完整的思考过程：

非常严谨！正确的日期信息、节日安排以及放假规划在推理过程中都得到了体现。

那么，针对之前各大AI大模型“华山论剑”的问题——13.9与13.11比大小，o1的表现如何？截止o1发布前的9月11日，GPT-4o仍然无法对这个问题给出正确回答。那么，o1会如何分析？

无论是分整数、小数比较，还是在不足位的部分补“0”，o1 都使用了人类生活中常用的推理方法，且给出了正确的答案及解释。

似乎这还远远没有到达 o1 能力的上限。我们再搬出2024年新高考一卷数学的压轴题，让 o1 尝试分析。

这一次，o1 使用了较长的时间进行分析，且三个小问需要分别解答。经过大约两分钟的推理，模型给出了三个小问的完整分析。

由于二三小问都是证明题，证明过程较长，这里就不展示所有的推理过程了。不过经过仔细比对，似乎 o1 真的能实现“自圆其说”，使用较为正确的推理策略。

经过进一步测试，倒数第二道导数大题能成功解决前两个小问，而第三问的解答中出现了步骤遗漏，给出了b>0的答案（实际的答案是b大于等于2/3）。

最后，我们再拿出之前问倒 GPT-4o 的阿里巴巴数学竞赛题对 o1 进行挑战。

这次，我们选取2024年数竞题目的前五题。

最后经过测试，只要能跑出答案，正确率差不多能有60% ，部分推理过程比答案简略的多，比如分类讨论的情况少了，导致答案错误。且在有些推理过程中o1会莫名其妙的停止推理不再回复，点刷新也没有反应。

根据官方发布的能力图可以发现，对于类似的数学竞赛 AIME，4o的正确率只有13.4%，而本次的 preview 版本能达到56.7% ，惊人的是，尚未发布的正式版 o1 居然有高达83.3%的正确率！比较其他能力如 CodeForce 算法竞赛等，对于这些复杂的推理问题，o1 的正确率来到了一个新的高度，比先前最强的 GPT-4o高出了几十个百分点，可以说，实现了全面碾压。

整体体验下来，o1 的推理能力确实很强，正确率很高。不过，o1 经常会在推理的过程中“宕机”，需要重新进行提问，可以是目前测试的人太多。

与GPT-4o相比，o1在数理化生、英语法律经济等各种科目都有不同成绩改进。

不过新模型的费用有些离谱：o1-preiview每周30条，o1-mini每周50条。

是每周，每周就能跑 30 条，看来 o1 模型推理成本很高了。

API 的价格上，o1-preiview每百万输入15美元，每百万输出60美元。