马斯克19天建成世界最强AI集群!10万块H100「液冷怪兽」即将觉醒


  新智元报道  

编辑:编辑部
【新智元导读】10万块液冷H100正式开工,马斯克19天建成世界最强AI训练集群。

凌晨4:20,大洋彼岸的最大超算训练集群开始轰鸣。「420」也是马斯克最喜欢玩的梗,象征着自由、不受约束和反传统。马斯克频繁把「420」用在他的产品定价,公司开会时间和星舰一发射时间上等等。网友也在评论区打趣马斯克超绝仪式感,不到4:20不开工。在最新采访中,马斯克透露了更多关于新建超算和xAI模型进展:- Grok 2上个月完成了训练,大约用了15K H100- Grok 2将于下个月发布,与GPT-4相当- Grok 3正在新建10万块液冷H100超算上,开始训练- 预计Grok 3将在12月发布,「届时将成为世界上最强大的人工智能」

10万块液冷H100,19天完成搭建


值得注意的是,这个全球最大的超算集群,大就大在拥有10万块H100,还是液冷的那种。10万块H100是什么概念呢?价格上来看,H100 GPU作为AI的关键组件、硅谷的热门商品,据估计每块成本在3万到4万美元之间,10万块H100就是一笔40亿的大单。而在全美TOP 5的高校机器学习博士曾发帖说,实验室H100数量为0,要用GPU得靠抢。李飞飞也在采访里表示,斯坦福的自然语言处理小组只有64块A100 GPU。而马斯克一出手就是10万块,这个数字令评论区垂涎欲滴。算力上来看,算力大约是OpenAI用于训练GPT4的25000块A100的20倍左右。耗电上来看,仅仅是让这个超级计算中心维持运转,所需要的电力总功率就达到70MW,相当于这是一座普通电厂的装机容量,可满足20万人的能源需求。今年5月,马斯克就曾表示,希望在2025年秋季前建成「超算工厂」。现在看来,为了加速超级集群的建设,他选择了购买当前一代的H100 GPU,而不是等待新一代的H200或其他即将推出的基于Blackwell的B100和B200 GPU。尽管市场预期Nvidia的新Blackwell数据中心GPU将在2024年底前上市,马斯克显然没有耐心等待。当前AI军备竞赛越发火热,唯快不破,谁能最快地推出产品就能迅速占领市场。xAI作为一家初创公司,更是要是与其他巨头之战中先声夺人。在之前,马斯克与甲骨文的百亿大单就谈崩了,马斯克嫌弃甲骨文速度太慢,认为对方没有以可行的速度构建计算集群。而甲骨文则觉得xAI建超算选址承担不了电力的需求,随着百亿订单的谈判破裂, xAI和甲骨文停止了讨论扩大现有合作的可能性。xAI只得田纳西州孟菲斯市建设自己的人工智能数据中心,与甲骨文的合作破裂意味着xAI要自己动手单干,通过10万块H100构建独立的数据中心,以摆脱甲骨文等云提供商能力的限制。马斯克自己也表示,xAI拥有世界最强的AI训练集群,可谓遥遥领先。

世界最强Grok-3开训,年底发


在马斯克最新一则采访中,披露了建立超算的一些细节。

据大孟菲斯商会(Greater Memphis Chamber)主席Ted Townsend透露,马斯克只花了大约一周的时间就决定将xAI的新超级计算机建造在孟菲斯。

Townsend说,经过3月份的几天旋风式谈判之后,马斯克和他的团队选择了田纳西州的这座城市,因为这里有充足的电力和快速建设的能力。

并且,仅仅花费了19天超算中心就建造完成,马斯克也在推文中赞扬了团队优秀的工作。

Supermicro公司也为xAI提供了大部分硬件支持,其CEO Charles Liang也在马斯克的推文下发表了评论,赞扬了团队的执行能力。如此之大的训练集群,目的就是为了训练Grok 3。本月初,马斯克就宣布8月底推出Grok 2,在Grok-2尚未发布的情况下,马斯克也透露了Grok-3的部分细节,为最强模型Grok 3造势。马斯克在今年4月接受挪威主权基金负责人Nicolai Tangen采访时说,Grok 2需要大约2万张H100来进行训练。Grok 3将于年底发布,可以预见,基于10万个GPU训练的Grok 3性能方面将比Grok 2更上一层楼。如此巨大的超算中心,自然需要大量人才和技术的支持,马斯克也继续在推特上招兵买马,让数据优势、人才优势和算力优势全部扩张到极致。参考资料:https://x.com/elonmusk/status/1815325410667749760https://x.com/tsarnick/status/1815493761486708993


相关推荐

  • 谷歌AI天气「神算」登Nature:30秒模拟22天天气,效率暴涨10万倍!
  • Llama 3.1磁力链提前泄露!开源模型王座一夜易主,GPT-4o被超越
  • 5 个 Pandas 超级好用的隐藏技巧
  • 7k star!斯坦福开源学术研究神器!storm
  • 人民大学通报:教师王贵元猥亵女生情况属实,开除党籍、撤销教授职称开除!人大大王贵元教授性骚扰且强制猥亵我,并要求与我发生性关系”
  • 京东健康·全球医疗AI创新大赛火热进行中,立即参与,共创医疗新纪元!
  • 开源仅 1 天就斩获近万星!超越 RAG、让大模型拥有超强记忆力的 Mem0 火了!
  • 史上最全 Git 图文教程,没有之一
  • 粗看最近爆火的mem0个性化轻量级框架:兼谈多模态数据的tokenizer
  • 下半年面试难度太大了...
  • 是时候丢掉 BeanUtils 了!
  • ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出
  • 无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散
  • 真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
  • 神经网络也有空间意识!学会在Minecraft创建地图,登上Nature子刊
  • 首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了
  • 让小程序在 APP 运行的高性价比选择 ——FinClip
  • 前端程序员,还在本地开发还能用https?
  • Set 迎来史诗级加强,新增 7 个实用方法!
  • Apache Doris x 腾讯云,共同探索极速实时分析的极致体验|Apache Doris Meetup@深圳站火热报名中