GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

啥?

新版GPT-4是在Q*的输出上微调的?

在竞技场重回榜一的新版GPT-4 Turbo,成功再次踩中大家嗨点。

它此次的性能提升体现在数学、推理、代码上,而且输出内容废话更少。

最让大家感到兴奋的是其数学/推理能力,现在可以在一些问题上完胜其他大模型。

比如“求y=x^4-5x^2-x+4和y=x^2-3x交点的y坐标之和。”只有最新版GPT-4 Turbo能测出来。

这条推特被公开承认自己参与过Q*的Lukasz Kaiser转发。

Noam Brown也发推表示新版GPT-4 Turbo在推理能力上大幅提升——要知道,这位OpenAI科学家一直被外界认为正在研究Q*。

各方信息汇总后,网友们一拍脑袋反应过来,这其中会不会就引入了Q*啊?

数学方面的提升意味着其中可能包含了一个数学模型,可能是Q*。

(以及他的数学题测试推特被OpenAI的人转发了)

好家伙,难道OpenAI在悄悄搞大事?

新GPT-4的“新马脚”?

OpenAI官方公告表示,最新版本的GPT-4 Turbo全方位大提升,现在ChatGPT用户可直接体验。

网友立马冲去实测,有人给出评估结果,特别是数学/推理能力有了重大提升。

实际问题测试中,在多个数学推理题上,GPT-4 Turbo都没有翻车,但是如Command-R plus、Clauede-3 Opus等都有失误。

比如一道乘电梯的推理题。陷阱在于这部神奇电梯无论坐几层,最后都会停在一层。GPT-4 Turbo理解了这层逻辑,最后给出了正确答案。

还有在修改二叉树问题上,GPT-4 Turbo不仅回答正确,而且过程清晰完整。


同时在“大海捞针”能力上,与之前版本对比,最新GPT-4 Turbo已经是出版GPT-4能力的4.3倍

竞技场的结果表明,在代码能力方面,GPT-4 Turbo也更强了。

文本输出方面变得更加简洁。

生成代码也少了很多废话(下图右侧为新版本)。

有人补充说,生成速度上也更快了。

神秘Q*:OpenAI的最大秘密?

现在Q*已经成了OpenAI的流量密码了,只要出现这个关键字,网友们都会兴奋不已。

毕竟当初奥特曼宫斗大戏就和它有关联,还有人发出警告,Q*预示着AGI即将出现。

不过官方一直没有公开承认过这个项目的存在,奥特曼拒绝回答,Transformer作者公开承认参与Q*也被OpenAI公关跳起来捂嘴。

从目前各方透露的信息来看,Q*专注于逻辑和数学推理能力,数学能力突出。

Transformer作者之一Lukasz Kaiser承认自己参与了这个项目

德扑AI之父、前FAIR(Meta)研究科学家Noam Brown也被视为是Q*项目的重要成员(推测来自LeCun)。

他加入OpenAI的动作也被外界视为分析Q*的一个线索,“有理由怀疑Q是将LLM和AlphaGo结合起来,并用强化学习进行训练”。

Noam Brown开发出了第一个在打扑克牌上超越人类的AI,后来加入Meta致力于让AI学会玩Diplomacy(外交游戏)。

目前,关于Q*的准确信息还是非常少。

可能奥特曼还在等一个合适的时机来回应外界。

One More Thing

btw,网友们意外捉到总裁Brockman转发的一个视频演示里的提示词是:

创建一个python脚本,使用pytube库从YouTube下载视频。

看来大家拿GPT-4干的事也都差不多嘛(doge)。

参考链接:
[1]
https://twitter.com/lukaszkaiser
[2]https://twitter.com/skirano/status/1778122305471705489
[3]https://twitter.com/7oponaut/status/1777971159478194256
[4]https://twitter.com/ai_for_success/status/1778073765748064678
[5]https://www.understandingai.org/p/how-to-think-about-the-openai-q-rumors

报名参会倒计时 ⏰

4月17日,中国AIGC产业峰会

只需一天,感受AIGC新应用正在引领的科技新范式!

来自产品、技术、投资等领域最主流的“玩家”代表和投资人,将在4月17日中国AIGC产业峰会,与你共同探讨AIGC正在重塑的新世界。了解更多峰会详情。

欢迎报名参会 ⬇️

峰会将全程线上下同步直播,欢迎预约直播 ⬇️


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

相关推荐

  • 小微公司可用的开源ERP系统
  • 识读2300多年的战国竹简,竟只用2B端侧大模型!面壁发布新一代“小钢炮”
  • MIT等首次深度研究「集成LLM」预测能力:可媲美人类群体准确率
  • 谷歌大脑DeepMind「婚后」貌合神离,Hassabis怨气冲天!1+1<1
  • GPT-4 Turbo重回王座,ChatGPT免费升级!数学暴涨10%/上下文全面碾压
  • OpenAI内斗第二弹!Ilya亲信、超级对齐团队2人惨遭开除,被批泄密
  • 吴恩达预言成真?这群AI「员工」狂卷KPI
  • 冷知识:开源协议BSD License是北师大许可证的缩写
  • 𝕏自动将用户帖子里的Twitter.com改为X.com
  • 五个“宝藏”开源项目,带你用Three.js玩转3D可视化
  • Atlassian开源最强“实用”前端拖拽组件:性能和兼容性俱佳、支持跨窗口拖动、适用于任何前端框架
  • 大湾区的明星打车平台要IPO了
  • 美团面试:如何检测和避免线程死锁?
  • Spring Boot集成webflux快速入门Demo
  • 美国空军如何在 45 天内在 F-16 战机上部署 Kubernetes 和 Istio
  • 甲骨文宠儿力压GPT-4斩获竞技场首胜,不绑定厂商,不做聊天机器人,Transformer最年轻作者带飞大模型创业新星
  • 中小银行数据治理做不好,是问责机制和考评绩效体系的“锅”?
  • 如何将技术债务纳入路线图
  • ArchSummit 深圳|来自百度、Uber、eBay、货拉拉、小质科技的 Data 4 AI 探索和实践案例
  • OpenAI投资的自动驾驶软件公司倒闭了:烧光15亿元交不出一款产品,CEO:成本太高,活不下去了