IMO数学竞赛第5题是何方神圣?大模型全军覆没了…

夕小瑶科技说 原创
作者 | 海野
昨天,第65届IMO(国际数学奥林匹克竞赛)决赛成绩公布,中国队因2分之差憾失冠军。

中国队的得分情况来看,其中第5题是中国队失分最严重的一题,该题也在网络上引发了激烈讨论。

据说这道题目遇强则强,在数学方面很有造诣的人也可能掉进它的陷阱,但答案其实非常简单。

于是,我拿着这道题去问国内外主流AI大模型,结果全员翻车?

这第5题究竟是何许题也?请看大屏幕:

好了,看到这道题,大家是不是都跟我一个想法:啊,脑子好疼,这是什么,我怎么看不懂?

别急,我这就把答案贴出来:

n=3。

着急的小伙伴可以跳到到文章结尾去看解析~

让我们先看看,这些AI模型们的佼佼者是怎么解题的。

AI集体脑子秀逗,思路与答案割裂

首先让我们欢迎本次接受试炼的大模型选手们,它们是来自国内外的高知名度的,非常有代表性的选手。它们分别是:

Claude3.5、GPT-4o、Gemini Pro、 文心一言4.0、通义千问qwen-Max、豆包、Kimi、智谱GLM-4-0520。

此外,我还选择了一部分专攻数学的改进过的模型。包括:

国内首个数学大模型九章大模型MathGPT ,以及上次AI数学奥数竞赛冠军,基于Deepseek数学模型改良的Numina-Math-7B

而我使用的Prompt与原题完全一致:

憨豆特工在一个2024行2023列的方格表上做游戏. 方格表中恰有2022个方格各藏有一个坏人. 初始时,憨豆不知道坏人的位置,但是他知道除了第一行和最后一行之外,每行恰有一个坏人, 且每列至多有一个坏人. 憨豆想从第一行移动到最后一行,并进行若干轮尝试. 在每一轮尝试中,憨豆可以在第一行中任意选取一个方格出发并不断移动,他每次可以移动到与当前所在方格有公共边的方格内. (他允许移动到之前已经到达过的方格.) 若憨豆移动到一个有坏人的方格,则此轮尝试结束,并且他被传送回第一行开始新的一轮尝试. 坏人在整个游戏过程中不移动,并且憨豆可以记住每个他经过的方格内是否有坏人. 若憨豆到达最后一行的任意一个方格,则游戏结束. 求最小的正整数n,使得不论坏人的位置如何分布,憨豆总有策略可以确保他能够经过不超过n轮,尝试到达最后一行。

先贴结果(做个心理建设),模型们全军覆没,甚至一度让我以为是答案出问题了!

接下来让我们看看这些AI模型的解题思路。根据IMO竞赛的规则,一道题目7分,你们会给这些AI打几分?

GPT-4o率先送出了一血,思维不够活跃,驴唇不对马嘴。

被寄予厚望的Claude也倒了,感觉没读懂题啊,一边说最多2023次,一边说最少2023次。

Gemini Pro:

这貌似出现了跟GPT-4o相同的毛病啊。

就连文心也这样,对这个问题的见解不够深啊。

通义千问MAX:

虽然通义的答案与上面的模型不一样,但是思路还是不太对啊。

豆包:

豆包你……也是给出了意想不到的答案啊。

Kimi:

Kimi的错误跟Claude一样,明明需要的是计算最少,偏偏选了最多的回答。

智谱GLM-4-0520:

看起来很长一段推理,就要得出结果了,但是然并卵……

不仅是这些大模型翻车,就连这些数学专攻模型也各执一词……

九章大模型MathGPT:

Numina-Math-7B:

这些AI的答案五花八门,就是跟正确答案沾不上边。我在提问完后,我都忍不住怀疑是不是答案出问题了!怎么这么多大模型都是给的2023的答案啊!貌似这些AI都犯了一个错误:忽略了走过的格子也是可以再走的。 大模型们的翻车率,真是有点感人啊!

在看完大模型们的正确率后,我突然觉得AI的智慧在短时间内是赶不上人脑的。以上大模型可以很好的作为当今“最全能”的AI代表。在上个月的“AI参加高考”的结果中,各模型的得分基本在本科线左右浮动。但我们拿出这类需要善用数学思维的富有创造力的题目时,模型们就开始胡言乱语了。

大模型们的发展之路,还是任重而道远啊!

最后附上答案解析:

首先我们可以证明,憨豆没有两次尝试后一定成功到达最后一行的策略。在第一次尝试中,假设他首次到达第二行的某个单元格,可能该单元格有坏人,他必须立即返回第一行,他无法到达更远的单元格。在第二次尝试中,假设他首次到达第三行的另一个单元格,由于他必须从第二行的不同单元格移动过来,可能存在坏人,因此他也可能在第二次尝试中失败。因此,无法保证在两次尝试中到达最后一行。然而,当尝试次数为3时,可以采用一种策略确保到达最后一行。在第一次尝试中,憨豆沿着从第二行开始的路径移动,探索每一个单元格,找到第二行的坏人,尝试结束。如果第二行的坏人不在边缘(即它位于第二行的中间某个单元格),憨豆在第二次和第三次尝试中将采用两条路径,这两条路径将覆盖除了两个可能有坏人的单元格外的所有单元格,因此至少有一条路径能够成功。如果坏人在边缘(假设在第二行的第一个单元格),则憨豆在第二次尝试中将采取另一条路径,从第二个单元格开始,避开已知的坏人单元格。如果这条路径没有遇到坏人,憨豆将赢得游戏。如果遇到坏人,他将在第三次尝试中采取一条策略,确保绕过该坏人单元格,并最终到达最后一行。总结来说,尽管存在许多不确定性,但通过策略性地探索和记忆坏人的位置,憨豆可以确保在第三次尝试或更早的尝试中到达最后一行。

在YouTube上也有比较详细的题目讲解,大家也可以去看一下。

题目讲解:
https://www.youtube.com/watch?v=wfQkk9WktGE

参考资料

 [1]https://www.imo-official.org/

相关推荐

  • 专访 Luma AI 首席科学家:我们更相信多模态的 Scaling Law
  • 如何在小红书做出爆款?先发够1000条笔记
  • 苹果小模型来了
  • AI驱动下的新能源材料研究、发现与 NVIDIA Modulus 加速材料计算|在线研讨会预告
  • 大模型风向变了,OpenAI苹果掉头布阵
  • AI产品沉思录:浏览器插件
  • 如果不赚钱,AI 的繁荣可能会消失,就像淘金热消失一样
  • 职场中那些做到中层才明白的道理:1.解决问题而不是干活;2.顺着人性做事;3.最好的沟通:勤汇报
  • Spring Boot集成xjar快速入门Demo
  • NPM 依赖管理的复杂性
  • 我被官方采访了。
  • 旧文再看:工作十年后,逃离银行业加入互联网,有必要吗?
  • 微软操作系统全球崩溃,蓝屏
  • 【明晚8点LFOSSA直播】解锁云原生高薪秘籍,成为KUBESTRONAUT技术专家的飞跃之旅
  • 发布“k8s生态周报”这件小事,他坚持了5年
  • CrowdStrike造成850万台Windows蓝屏——红衣教主锐评:堪比“投下100万颗原子弹”
  • 国际视角看 OpenHarmony 开发
  • 万字长文!看大公司如何开发大模型智能应用
  • 全球850万台PC惨遭蓝屏,元凶是代码逻辑错误,安全巨头遭质疑:软件推送更新前没测试?!
  • 估值超70亿,苏州又跑出一个明星IPO