三个月建成“世界最大”Nvidia GPU 计算集群,马斯克:不够,还要再加 10 万个

作者 | 褚杏娟

9 月 2 日,马斯克发文称,其人工智能公司 xAI 的团队已经上线了一台被称为“Colossus”的训练集群,总共有 100000 个英伟达的 H100 GPU。

马斯克表示,他的团队花了 122 天才完成 Colossus 的上线过程。由于 xAI 在 6 月份才选定孟菲斯作为其所在地,因此 Colossus 的部署速度可以说是非常快的。马斯克表示,在接下来的几个月里,Colossus 的规模将扩大一倍,达到 200,000 个 GPU,其中 5 万个是更为先进的 H200。

一位 X 用户指出,这一发展的实际规模超过了迄今为止发布的每个主要模型。相比之下,OpenAI 最强大的模型才使用了 80000 个 GPU。

Nvidia 的 H200 是市场上最抢手的芯片之一,尽管最近被该公司于 2024 年 3 月推出的最新 Blackwell 芯片超越。相比之下,H200 配备 141 GB 的 HBM3E 内存和 4.8 TB/s 的带宽,Blackwell 的最高容量比 H200 高出 36.2%,总带宽高出 66.7%。

Nvidia 在 Colossus 发布后向马斯克和 xAI 团队表示祝贺。它还强调,Colossus 将是性能最强大的产品,并且在能源效率方面将有“显著提升”。

风险投资公司 ARK Invest 的首席执行官 Cathie Wood 也对该团队取得的成就表示祝贺,称其“令人印象深刻”,并表示“未来还会有重大公告”。

2023 年 4 月,有广泛报道称马斯克正在购买大量 GPU,一些消息来源报道称他打算购买多达近 10,000 个 GPU,以推进他的 xAI 项目。

在当前的人工智能淘金热中,包括微软、谷歌、亚马逊在内的多家重量级科技公司正与马斯克一道竞相采购英伟达备受青睐的 Hopper 系列人工智能芯片。马斯克也是英伟达的重要客户,其承诺今年仅用于特斯拉的英伟达硬件就要投资 30 至 40 亿美元。

孟菲斯集群将主要用来训练马斯克的 Grok-3。他在 7 月份表示,“我们希望在 12 月之前发布 Grok-3,到那时 Grok-3 应该会成为世界上最强大的人工智能。”Grok-2 的早期测试版上个月刚刚向用户推出 。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

下载量超 5000 万的知名应用,开发团队“全军覆没”,从此发版人唯剩老板一个

RAG风口十问:大数据与AI是价值落地还是过度炒作?

机房锂电池火灾致阿里云服务瘫痪,超 30 小时灭火仍未结束:持续浇水,数据中心成“危楼”!?

又“刑”了!搞瘫公司三千多工作电脑,不给 500 万就删 IT 账户,网友:快乐的员工谁干这事儿啊

相关推荐

  • InfoQ 技术大会双节福利套餐来啦!无套路立享折扣优惠
  • OpenAI 正在卷土重来!发布最新模型 o1,这次变为华人扛大旗?
  • “法定退休年龄计算器”热到崩溃;活久见:近一万颗星的知名开源项目竟被无理要求闭源;“纯血鸿蒙”正式版将于月底上线 | Q资讯
  • 如何用 Web 界面 AI 工作流提升科研写作效率?
  • 这10种分布式ID方案,真香!
  • ACL 2024 | 文本表示新SOTA!微软用大模型及其生成数据优化Text Embedding
  • 张俊林:OpenAI o1的价值意义及强化学习的Scaling Law
  • 小伙伴们节日快乐
  • 一个因docker容器挂载引发的事故
  • Star马上破万,这款开源AI知识库你一定要看看
  • 中文排版指南(有点变态)
  • 写给大家看的中文排版指南!
  • 每个人都需要的中文排版指南
  • 中文文案排版指南:提升网站气质的开源项目
  • 高赞 GitHub 项目盘点:美观的中文排版样式
  • 中文网页终于有了排版规范
  • 中文网页重设与排版-typo.ss
  • Spring Boot集成Akka remoting快速入门Demo
  • 据传,阿里云盘惊现灾难级bug,可看别人隐私照片
  • 一呼百应 !!! Modbus广播这么强