中国五连冠终结,美国重登IMO宝座!AI智商被第一题打回原形


  新智元报道  

编辑:桃子 好困
【新智元导读】IMO 2024最终结果终于出炉了!破天荒的是,四年后美国队再次斩获第一,领先中国队两分。对于LLM来说,IMO最简单的第一题,GPT-4o、Claude 3.5 Sonnet等模型全部回答失败了。

中国蝉联IMO五年冠军的纪录,如今被美国队打破了!

这几天,第65届IMO公布了最终获胜国家队,美国以192分的成绩位列第一,中国以2分之差位居第二。

值得一提的是,印度队首次冲进第四。

中国和美国IMO团队均拿下了5枚金牌,1枚银牌

IMO是全球最顶尖的高中数学竞赛,吸引了来自世界各地的优秀年轻数学家。

今年,有108个国家和地区的609名学生参赛。

中国队中的Haojia Shi已经连续两次获得个人满分的选手,也是史上第7位获得满分的选手。

美国选手Alexander Wang和Jessica Wan分别在个人排名中位列第三和第五。

六位队员,四个是华人


从左到右:Jessica Wan, Alexander Wang, Tiger Zhang, Jordan Lefkowitz, Carl Schildkraut (Deputy Leader), Krishna Pothapragada, Linus Tang

2024年美国IMO队成员是:- Jordan Lefkowitz,17岁(康涅狄格州)- Krishna Pothapragada,18岁(伊利诺伊州)- Jessica Wan,18岁(佛罗里达州)- Alexander Wang,16岁(新泽西州)- Qiao(Tiger)Zhang,16岁(加利福尼亚州)

- Linus Tang,18岁(加利福尼亚州)

Jessica Wan是自2007年以来,第一个加入美国IMO团队的女性。个人成绩虽没有大满贯,但也拿下了4个满分。

而在此之前,她便是一个数学领域的尖子生。

去年,MIT举办的第15届女性数学(MP4G)大赛上,就读高中的Jessica Wan夺得了三连冠。

比赛中,20道题目中,Jessica做对了17道,成为这次MP4G竞赛中,最成功的参与者。

她还连续四年,参与了欧洲女子数学奥林匹克(EGMO)竞赛,其中两次拔得头筹。

Alexander Wang是新泽西州Millburn学校的高一学生。

对他来说,数学是一门有趣而简洁的学科。从幼儿园起,Wang便对数学非常感兴趣。

为了能够帮助更多的学生学习数学,发现数学的有趣之处,他联手Angelina Wang、Bill Sun成立了一个非盈利的组织——impact learners。

值得一提的是,他也是IMO 2023美国队的成员之一。在2023罗马尼亚数学大师赛上获得了个人金牌和团体冠军,他还两次入选MATHCOUNTS全国赛。

Linus Tang就读于内华达州里诺市的Davidson Academy线上课程。2021年,在斯坦福数学锦标赛上,他在组合数学中获得第一名。

他曾在2022年春季,研究了一个名为「保加利亚纸牌」游戏的数学原理。

在Linus一年的时候,他便赢得了人生首个数学奖——Math Kangaroo,他表示,在幼儿时期在拼图游戏中花费大量时间,锻炼了自己的视觉化能力。

十年IMO leader更人


值得一提的是,这次美国队能够获胜,与项目leader也有一定的关系。

自2014年以来,美国IMO队一直由华裔数学家、CMU教授Po-Shen Loh(罗博深)带队,他曾带领美国队分别在2015、2016、2018、2019年,赢得了IMO金牌。

2019年那次,是中国队与美国队并列第一,至此四年后中国队连霸榜首,美国队一直位列全球第二。

这次,John Berman成为了美国IMO队的负责人。

他获得了MIT数学学士学位,并在2018年获得了弗吉尼亚大学的数学博士学位。目前,他还是Geodemath在线课程的导师。

在团队获胜后,Berman发文对此表示庆祝。

IMO 2024试题


本届国际奥数竞赛共有6道题目,9小时作答时间。

以下是完整试卷内容,感兴趣的小伙伴尝试挑战下。

第一题解析:https://www.youtube.com/watch?v=50W_ntnPX0k第二题解析:https://www.youtube.com/watch?v=VXFG1t_ksfI第三题解析:https://www.youtube.com/watch?v=ASV1dZCuWGs第四题解析:https://www.youtube.com/watch?v=WnZv3fdpFXo第五题解析:https://www.youtube.com/watch?v=wfQkk9WktGE

第六题解析:https://www.youtube.com/watch?v=7h3gJfWnDoc

IMO第一题,大模型惨败


有网友表示,IMO试题为前沿模型提供了一个很好的测试集。

一般来说,IMO试题仅需要高中数学知识就够了,而且第一道题最简单,人类选手通常会在60分钟内完成。

那么,你能猜到,对于地表最强的LLM来说,做的如何?

经过一番测试,结果如下:

GPT-4:失败。即使指出错误,也无济于事。

GPT-4o:失败。即使指出错误,也无济于事。

Claude 3.5 Sonnet:失败。指出错误确实帮助模型简短地给出了正确答案,但随后继续走上了错误的道路。

看来,大模型要走的路,还远着呢。

参考资料:https://www.zhihu.com/question/662130364?utm_psn=1798276113539153920

https://x.com/sytelus/status/1815203518913085900


相关推荐

  • 两次全球蓝屏,祸首竟是同一人?14年后,灭霸CEO再酿IT灾难
  • AB实验的采样分流技术演进以及Sutva假设与现实挑战
  • 如何看待微软这次蓝屏事件,中国为什么能风平浪静?
  • CrowdStrike灾难的7个紧急教训
  • 马斯克庆祝拜登退选;周鸿祎评微软蓝屏:中国安全软件立大功;字节豆包被曝“偷”用户数据练AI;传小红书职级将做扁平化调整
  • [Pnetlab实战演练]一步步教你通过SSH安全登陆防火墙!
  • 多目标跟踪相关开源数据集资源汇总
  • 【机器学习】基于scikit-learn进行特征工程
  • NUS提出ProcessPainter,从文本生成分步骤绘画过程
  • 科技部通报:多位国家杰青、长江学者,因请托、抄袭,被处理!
  • 减少样式计算的范围和复杂度
  • 面试官:如果一个NPM包部分功能不满足需求,如何修改其部分功能~
  • SQL AI工具太贵用不起?开源的更有性价比
  • 一个时间序列可视化神器:Plotnine
  • 2024 META新作:SUM技术进行大规模在线用户表示,提升广告个性化效果
  • 干大模型的月薪快 10w 了
  • 60 个“特征工程”计算函数(Python 代码)
  • 解约!211 新校区,不建了!
  • AI浪潮,Spring也赶上了!?
  • 2024年上半年大模型发展回顾暨7月份半月度KG/RAG/LLM技术总结