英伟达全新GPU架构Blackwell——“全球最强”、第二代Transformer引擎、计算性能提升1000倍

北京时间3月19日4时-6时,万众瞩目的英伟达GPU技术大会(GTC)在美国加州圣何塞SAP中心正式开启。英伟达创始人黄仁勋在大会上发表了《见证AI的变革时刻》主题演讲在这场两个小时的演讲中,黄仁勋公布了搭载B200芯片的GB200 Grace Blackwell超级芯片系统,以及英伟达在AI软件(NIM微服务)、Omiverse云、具身智能方面的最新进展。按照每两年更新一次GPU架构的传统,今年黄仁勋如期公布了英伟达新一代AI芯片架构Blackwell,以及基于该架构的B200、GB200系列芯片。他在演讲台上表示,这是目前为止功能最强大的AI芯片家族。

8年,从Pascal架构到Blackwell架构,英伟达将AI计算性能提升了1000倍!

每一代英伟达GPU架构都会以一位科学家的名字来命名。新架构取名Blackwell是为了致敬美国科学院首位黑人院士、杰出统计学家兼数学家David Blackwell。

Blackwell擅长将复杂的问题简单化,他独立发明的“动态规划”、“更新定理”被广泛多个科学及工程学领域。

▲David Blackwell旧照

黄仁勋现场对比Blackwell架构和Grace Hopper架构的GPU,他表示:“Hopper 固然已经非常出色了,但我们需要更强大的 GPU”。

Blackwell GPU有6大核心技术:

1、号称是“世界最强大的芯片”:集成2080亿颗晶体管,采用定制台积电4NP工艺,承袭“拼装芯片”的思路,采用统一内存架构+双芯配置,将2个受光刻模板(reticle)限制的GPU die通过10TB/s芯片间NVHyperfuse接口连一个统一GPU,共有192GB HBM3e内存、8TB/s显存带宽,单卡AI训练算力可达20PFLOPS。

跟上一代Hopper相比,Blackwell因为集成了两个die,面积变大,比Hopper GPU足足多了1280亿个晶体管。对比之下,前代H100只有80GB HBM3内存、3.35TB/s带宽,H200有141GB HBM3e内存、4.8TB/s带宽。

2、第二代Transformer引擎:将新的微张量缩放支持和先进的动态范围管理算法与TensorRT-LLM和NeMo Megatron框架结合,使Blackwell具备在FP4精度的AI推理能力,可支持2倍的计算和模型规模,能在将性能和效率翻倍的同时保持混合专家模型的高精度。‍‍

在全新FP4精度下,Blackwell GPU的AI性能达到Hopper的5倍。英伟达并未透露其CUDA核心的性能,有关架构的更多细节还有待揭晓。

3、第五代NVLink:为了加速万亿参数和混合专家模型的性能,新一代NVLink为每个GPU提供1.8TB/s双向带宽,支持多达576个GPU间的无缝高速通信,适用于复杂大语言模型。

单颗NVLink Switch芯片有500亿颗晶体管,采用台积电4NP工艺,以1.8TB/s连接4个NVLink。

4、RAS引擎:Blackwell GPU包括一个确保可靠性、可用性、可维护性的专用引擎,还增加了芯片级功能,可利用基于AI的预防性维护来进行诊断和预测可靠性问题,最大限度延长系统的正常运行时间,提高大规模AI部署的弹性,一次可不间断地运行数周甚至数月,并降低运营成本。

5、安全AI:先进的机密计算功能可保护AI模型和客户数据,而不会影响性能,支持新的本地接口加密协议。

6、解压缩引擎:支持最新格式,加速数据库查询,以提供数据分析和数据科学的最高性能。

AWS、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI都将采用Blackwell产品。特斯拉和xAI共同的CEO马斯克直言:“目前在AI领域,没有比英伟达硬件更好的。”

值得注意的是,相比以往强调单芯片的性能表现,此次Blackwell系列发布更侧重在整体系统性能,并对GPU代号称谓模糊,大部分都统称为“Blackwell GPU”。

相关链接

https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computing

https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/


热门文章

微软正式开源专为 Windows 打造的 Sudo

Linus Torvalds:你的代码好恶心

微信全新Linux版本开放下载——基于原生跨平台方案重构

- 苹果在macOS中“魔改”cURL,作者无端背锅很生气:误导用户!

获取新鲜开源资讯
网罗全球开源软件
畅读硬核技术文章
品味高级趣味梗图

⬇️欢迎关注OSCHINA公众号
「设为星标」


相关推荐

  • 为逼迫离职,把工位安排到厕所旁,该员工记录“领导如厕时间”发大群
  • 我...,竟然给一个默认人充了一年话费,才发现。。。
  • Git零基础实战之如何实现子项目同步更新
  • 【深度学习】基于深度学习的目标检测算法综述
  • vue3优雅的使用useDialog
  • 15.5K Star,开源免费的IP归属地实现包
  • 性能提升 46%,又一开源项目爆了
  • 一文说清当下时间序列热门应用与挑战
  • 马斯克突然开源 Grok:3140 亿参数巨无霸,免费可商用
  • 没等来 OpenAI,等来了 Open-Sora 全面开源
  • 黄仁勋甩出最强AI核弹!GPU新架构性能暴涨30倍,首发人形机器人大模型,联手苹果闯MR
  • 苹果希望iPhone引入谷歌Gemini模型;英伟达发布最强AI芯片;Apache Flink 1.19发布 | 极客头条
  • Linus Torvalds 不满提交到 Linux 6.9 的部分 Bcachefs 代码
  • 分析了 500 万份工作,看看有多少正被 AI 取代?
  • 50+国内外大模型专家齐聚,全球机器学习技术大会第二批嘉宾阵容公布!
  • 为什么defineProps宏函数不需要从vue中import导入?
  • helloworld - 同一个世界,同一行代码
  • 养成15个好的代码小习惯,让老大对你刮目相看
  • 一次真实生产事故,让我总结了线程池的正确使用方式
  • 谁说MySQL单表行数不要超过2000W?