马斯克狂揽10万块H100,自建世界最强AI超算,下一代模型训练开始

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

世界最强AI集群,马斯克建成了!

这一爆炸消息,由老马在推特上亲自官宣。

当地时间凌晨4:20,由xAI、X和英伟达等合力打造的孟菲斯超级集群已开始投入训练。

它由10万块H100组成,是目前世界上最强训练集群!

这一规模已远超世界最强超算Frontier。

xAI的创始成员紧随其后表示:

1年前我们成立这家公司时,目标是实现三个优势:数据优势、人才优势和计算优势。

从今天开始,这三者我们都有了!

马斯克帖子下,和英伟达关系密切、擅长液冷技术的超威(Supermicro)也发来祝贺。其创始人查尔斯·梁表示:

很高兴我们和马斯克一起创造历史。

同时,马斯克补充说,该集群的建成,为在今年内训练出全球最强模型提供重大优势。

按照此前说法,训练Grok-3正需要10万张H100。

集群俯拍图

不止于此,今年6月,他曾提到为了H100投入1GW电力是不值当的。明年夏天,可能要投入使用由30万块B200组成的集群。

自建集群更有底气

今年5月,The Information消息称马斯克要在2025年秋季前建成一个由10万H100组成的超算集群,与甲骨文进行合作。

消息称,xAI将出资100亿美元用来租用甲骨文的服务器。

当时还有人质疑,为啥明年建成但还要用上一代技术?

英伟达已经推出了基于Blackwell新架构的B100和B200,训练大模型的效率远超H100。

如今来看,说不定是消息中的时间有误?如果是今年落成就合理多了。

就在最近,马斯克回应了和甲骨文终止合作建设超算集群的消息。

他表示,xAI从甲骨文拿到了24000块H100的资源用来训练Grok-2。相关消息证明,xAI和甲骨文之间的服务器租用合作还在继续。

但是在10万卡H100集群的建设上,选择了自建模式,而且以最快速度推进,据说10万张卡安装完毕只用了19天。

我们必须自己掌握方向盘。

之后消息显示,戴尔和超微成为了马斯克的新合作商。

戴尔CEO、超微CEO最近都在推特表示,正在进行合作,并配上了数据中心的照片。

集群建设过程中,马斯克亲自去过现场。

同时也在推特透露过Grok正在孟菲斯训练,Grok-2将在8月推出。

值得一提的是,此前甲骨文对集群落成地点的电力供应提出担忧。

按照估算,10万块H100需要从电网分配到150兆瓦电力,不过马斯克似乎已解决这一问题。

最新消息显示,目前集群暂时拿到了8兆瓦。8月1日签署协议后将拿到50兆瓦。现在已经有32000块卡在线,第四季度将100%在线——这足以支持GPT-5规模模型训练运行。

总之可以肯定的是,AI巨头们都认为,算力握在自己手里更可靠,为此值得疯狂烧钱。

按照成本估算,每块H100的价格约为3-4万美元。马斯克的超算集群,价值将达40亿美元(折合人民币超290亿)。

早前消息称,微软和OpenAI正在制定一项耗资达1000亿美元的数据中心项目名为“星际之门”。

知情人士透露,甲骨文和微软之间正在达成一项交易,涉及10万块B200。这一集群可能在明年夏天准备就绪。

除此之外,如Meta也被曝出过豪华超算集群,AWS等云厂商也在数据中心上的投入更大。

参考资料:
[1]
https://x.com/elonmusk/status/1810727394631950752
[2]https://x.com/elonmusk/status/1815325410667749760
[3]https://x.com/dylan522p/status/1815494840152662170
[4]https://x.com/MichaelDell/status/1803385185984974941

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

相关推荐

  • 几何朗兰兹猜想被解决!历时30年、证明论文达800余页,中国学者陈麟系主要作者
  • 轻松、有趣的掌握梯度下降!
  • “所有为政府开发的软件,都必须开源!”瑞士新规引争议:里程碑 or 鸡肋?
  • 智能进化:具身智能系统基础模型的技术路线 | 新程序员
  • 不装了!4 年推迟两次后,谷歌摊牌:我们不会弃用第三方 Cookie
  • 超越传统续写模式:AI编程距离智能研发终态还有多远?
  • 首轮嘉宾阵容公布,GOTC 2024即将开启!
  • 我用十条优化措施,将Redis费用降本46万/月
  • 前向映射与反向映射在计算机视觉中的应用
  • 2024 版 PDF 发布!
  • 3个惊艳的AI项目火出圈,已开源!
  • 复旦才女,估值40亿
  • ACL2024主会:中科院发布表格理解大模型Table-LLaVA,刷榜23项指标
  • 英伟达又涨了!“中国特供”B20芯片被曝,马斯克豪掷10万块H100训Grok,算力是GPT-4的四倍!
  • Llama 3.1要来啦?!测试性能战胜GPT-4o
  • 元宇宙测试的挑战和技能要求
  • HarmonyOS开发者活动开启!加入鸿蒙生态,赢取多元好礼!| Q推荐
  • 蔚来汽车、哔哩哔哩、京东、携程携手为你分享大模型行业应用踩坑经验 |AICon
  • 万字长文分享快手 Kolors 可图大模型应用实践
  • 首次创业,9 个月内月入 10 万美元!YC 大佬分享致富秘籍:靠它开发速度翻 10 倍!