浅聊一下最接近英伟达B200的AI芯片

夕小瑶科技说 原创
作者 | 智商掉了一地
刚刚结束的英伟达 GTC2024 大会,可谓是赚足了观众眼球。老黄放出了“AI芯片核弹” —— B200,面向 AI 模型的新一代 Blackwell GPU 架构,支持万亿参数级模型训练。

这款芯片到底是什么量级的存在?它是不是新的 AIGC 浪潮的定海神针?

B200 真的已经碾压了其他芯片?

这让人们不禁开始思考,其他芯片厂商是否还有机会追赶这一巨头的步伐?是能继续保持住陪跑者身份,还是望尘莫及?

全球最强AI芯片 GB200,断层式领先

英伟达(NVIDIA)作为领先的图形处理器和 AI 芯片制造商,它在两年前推出的 H100 芯片在 ChatGPT、GPT-4 推出后身价水涨船高,甚至成为稀缺的“国际战略物资”。甚至直到几个月前,其他头部竞争对手的产品才能和 H100 相媲美。

基于新一代Blackwell架构的 B200 相比上一代  Hopper H100 ,再次迎来质的升级,性能显著提升。

可以这样直观地感受:在之前,GPT-4 需要约 8000 个 Hopper GPU 和 15 兆瓦的功率,执行 90 天的训练,而相同的 AI 训练只需使用 2000 个 Blackwell GPU,消耗 4 兆瓦的功率即可完成。这意味着 Blackwell GPU 在性能上的提升不仅仅是线性的,它又是一次新飞跃。

▲GTC 大会对 GB200 的介绍

此外,GB200 Grace Blackwell Superchip将不再只是芯片,而是结合了两个 B200 芯片的强大平台。这款产品的诞生,更关键的不止在算力的提升,而是能耗和成本的降低

▲Nvidia GB200 Grace Blackwell 超级芯片,图源 Nvidia
  1. 巨大的性能提升:GB200芯片拥有 2080 亿个晶体管,相较于上一代 H100 芯片只有800亿个晶体管,算力提升了 6 倍

    在处理多模态特定领域任务时,其算力更是能达到 H100 的 30 倍

  2. 能耗和成本大幅降低:GB200 与 H100 相比,仅需原来 1/25 的成本和能耗。

  3. 先进的技术组件:GB200 集成了诸多先进技术,包括第二代 Transformer 引擎、第五代 NVLink 高速互联技术、Ras Engine 和 Secure AI 等。

参数晃瞎眼,芯片性能怎么看?

那么究竟什么是算力,又该如何初步评判芯片的性能呢?我们先简单明确一下这些概念:

  • FLOPS(Floating Point Operations Per Second):即每秒浮点运算次数。
  • TOPS(Tera Operations Per Second),是Operations Per Second的特定量级,1TOPS 代表处理器每秒可进行一万亿次()操作。TOPS 通常用于衡量 AI 加速器和专用处理器(如 TPU、NPU 等)的性能,因为这些设备在执行深度学习和神经网络推理时,往往涉及大量的整数和定点运算。
  • TFLOPS(teraFLOPS)是 FLOPS 的特定量级,表示每秒一万亿()次的浮点运算,表示每秒进行的浮点运算次数。TFLOPS 常用于衡量 GPU 和高性能计算系统的性能
  • PetaFLOPS:1 PetaFLOPS = 1000 TeraFLOPS。"Tera" 和 "Peta" 分别表示十亿和一万亿。
  • 位宽:表示处理器在一次计算中能处理的数据位数,通常以 bits(比特)为单位。

简单来说,算力计算方式就是把芯片的峰值算力(单位:TFLOPS)乘以位宽(单位:bits),这样就能得到总处理性能(单位:TTP),即:

总处理性能=芯片峰值算力×位宽

举个例子,假设一款芯片的峰值算力是 2 TFLOPS,位宽是 64 bits,那么它的总处理性能就是:2 TFLOPS × 64 bits = 128 TTP。

国外AI芯片“三足鼎立”

势必分一杯羹的 AMD 家的 MI300 系列

在AI芯片竞争激烈的当下,AMD被认为是最有望与英伟达竞争的公司。

AMD CEO 苏姿丰:“英伟达现在占有大量市场,但是我们可以在这个市场分一杯羹。”

苏妈在23年12月份的AMD发布会上官宣了其最新AI芯片,用于模型训练和推理的 MI300X GPU 和用于 HPC 高性能计算的 MI300A APU,当时对标的是H100,要知道 H100 是英伟达22年3月份发布的 Hopper 架构芯片,整整领先了第二名AMD一年的时间。

据官方发布的各个维度的对比测评数据来看,MI300X相比H100的提升在 1.X-2.X倍的数据提升。比如:MI 300X的内存配置是H100的2.4 倍,FP8、FP16、TF32算力是英伟达H00的 1.3 倍。

Inter 推出 Gaudi 3 抗衡英伟达和AMD

和AMD几乎同时,硬件处理器老大哥英特尔宣布在美国市场推出了自家AI芯片 Gaudi 3,宣称 Gaudi3 的性能将优于英伟达的 H100,不过这一说法并未得到验证,预计2024年正式上市。

从图表中能够看到,虽然这些国外头部芯片厂商之间的角逐非常激烈,但英伟达的多项产品仍都处于领先地位。

▲图源 semianalysis▲头部芯片商产品对比

Gaudi3 MI300X 对标的都是 H100,且都在24年交付市场,如今24年已过去1/4的时间,AI芯片三足鼎立的场面恐怕来的更晚一些了。

芯片市场只有:英伟达和其他

在这场 AI 芯片的竞争中,还有一些新兴的初创公司和专注于特定市场细分领域的玩家。例如,Graphcore 和 Cerebras Systems 等公司正在开发专门针对 AI 和机器学习工作负载优化的处理器,这些处理器在某些应用场景中可能会提供比传统芯片更高的性能。

每家公司都在努力提高其产品的性能、效率和可扩展性,以满足从大模型AIGC、数据中心、云计算到边缘设备的各种计算需求。

英伟达凭借其在 AI 领域的早期投入和持续的技术创新,以及与云服务提供商和企业的深度合作,在 AI 硬件和软件生态系统中保持了显著的优势。

在 GTC 大会上透露,已有多家大型企业和云服务提供商(包括亚马逊云科技、谷歌、微软、Oracle 等)计划采用 GB200 架构的产品,未来将可能通过云服务的模式,出售 GB200 的接入权。

从上面分析不难看出,目前AI芯片的市场只有英伟达和其他,其他公司包括第二第三还在赶超英伟达两三年前的产品,英伟达已经拉开其他多个迭代轮回的距离。

政策限制下,国产芯片或将迎来机会?

再来看看国内的芯片情况,

大部分已经投入商用的国产芯片产品(包括华为昇腾 910)对比英伟达最新的 AI 芯片产品,起步较晚,虽然已在奋力追赶,但在性能上仍存在一定的差距。

▲AI 芯片国产替代方案,资料源《财经十一人》

目前来看,能够实现量产并且打开国内市场的多是华为、阿里、百度、腾讯等互联网大厂,以及寒武纪、天数智芯等独角兽公司的产品,其他大部分芯片厂商的产品基本都面向特定的应用场景。

美国芯片出口jin令限制了高端芯片如 A100 和 H100 的销售,提供了降级版本 A800 和 H800 给中国公司,这对国内 AI 和 GPU 依赖行业是挑战。然而,这也促使国产芯片需求增加,为本土企业提供了市场机遇,推动技术进步。

▲NVIDIA 芯片性能与半导体限制政策前后比较

国产优秀代表:华为昇腾 910、天数智芯、寒武纪等

昇腾 910 作为华为海思自主研发的 AI 芯片,其算力超过英伟达 V100,接近 A100/A800 80G PCIe 版本,但与 H100/H800 相比仍有较大差距。尽管如此,昇腾系列以其丰富产品线和软硬件结合,成为众多企业的选择。但由于昇腾 910 不支持 32 位浮点运算,在 AI 应用方面,目前多用于华为自身生态中的大模型业务。

▲昇腾 910B 与英伟达 A800 的对比

天数智芯在 2021 年推出了代表产品天垓 100,基本可以对标英伟达发布于 2017 年的 V100,虽与 V100 相隔四年,但天垓 100 实现了国内通用 GPU 从 0 到 1 的重要突破,也能确保自主可控,且能兼容 CUDA,便于算法和应用迁移。

AI 领域独角兽企业寒武纪已经量产了许多 AI 处理器,其在 2020 年发布的旗舰产品 MLU370-X8 主要面向训练任务,它支持互联,能高效执行大模型的训练推理任务

之前我们的各种芯片主要都靠技术进口,在政策限制的挑战下,国内芯片企业如华为海思、寒武纪、中芯国际、紫光集团等纷纷加大研发力度,力争在关键技术上实现突破。华为海思的麒麟 990 芯片在智能手机市场取得成就,尤其在 5G 和 AI 领域表现突出,中芯国际也在制造工艺上紧追国际先进水平。

不过,目前的环境对于芯片初创企业来说还是举步维艰,就算是谷歌和英伟达这种超大规模的公司,也都依赖于游戏行业或者内部需求为 AI 芯片的研发“输血”,尚未有哪家公司只靠着卖 AI 芯片就能在市场上屹立潮头,创业公司基本都面临着亏损,需要源源不断的巨额融资来支撑发展。

国产芯片发展:力求自主可控

国内半导体产业链正在加速重构,涵盖材料、设计、制造到封装测试的全链条,力求自主可控。尽管与国际顶尖水平存在差距,但基础半导体材料和设备的国产化已取得显著进展。在芯片设计方面,也涌现出众多拥有自主知识产权的企业。

此外,国家各项扶持政策的实施,也会在一定程度上加快国产芯片技术的研发和产业化进程。国产芯片企业也在积极探索与国内外的合作机会。通过技术引进和合作提升产品竞争力。在某些细分市场,如物联网、智能家居、5G 通信等领域,国产芯片已经开始展现出较强的竞争力。

国产芯片要实现长远发展,除性能之外还需充分考虑生态适配等多方面因素。

最近的上海半导体博览会上,除了很多卡脖子的设备厂商,不少新材料相关企业也前往参展,也吸引了很多投资人在现场寻找机会。期待国内芯片厂商持续发力,在集成电路生产方面,努力缩短与台湾省之间的差距,甚至赶超,在未来的全球半导体市场中占据一席之地。

总结

总之,B200 芯片的推出,展示了英伟达在 AI 芯片技术上的领先地位,也预示了 AI 技术在各行各业的应用将进一步加速部署。

对于其他芯片制造商来说,英伟达的这一突破无疑是一个巨大的挑战。

摩尔定律的放缓曾引发对半导体行业未来的担忧,但新的技术突破和应用场景总在不经意间出现,推动行业发展

因此,这并不代表其他芯片厂商就此无法追赶。他们可以通过硬件设计、软件优化和专用加速器的创新,继续在这个快速发展的 AI 计算竞赛中寻找自己的立足点。

而未来的芯片市场,注定充满变数和挑战,但也正是这样的不确定性,才让我们对技术进步的未来充满无限的期待和憧憬~

参考资料

 [1]https://tele.m.ofweek.com/2024-03/ART-8320503-8220-30629183.html
 [2]https://1587356929.spaces.eepw.com.cn/articles/article/item/324622
 [3]https://www.semianalysis.com/p/wafer-wars-deciphering-latest-restrictions
 [4]https://www.bilibili.com/video/BV1uK411i7kn/?vd_source=96aec58f45fdbb97384e36e3781ec33b

相关推荐

  • 布隆过滤器:提高效率与降低成本的秘密
  • Linux发行版最新排名
  • 开源日报 | 华为腾讯相爱相杀;Redis不再 “开源”;老黄集齐Transformer论文七大作者;“中国大模型第一城”争夺战
  • 有奖问答 | 聊聊 Unity 与原生桥接
  • 谷歌要让Angular再次伟大——正在与内部JS框架Wiz进行合并
  • 简易零钱分类程序
  • 国产大模型Kimi爆火到「宕机」;李想发内部信反思MEGA失利;Stable Diffusion核心团队被曝集体离职|极客头条
  • 突发!告 iPhone 垄断,美国政府起诉苹果
  • 年度问卷 | 智能推荐系统用户调研
  • 新版 Redis 将不再“开源”引争议:本想避免云厂商“白嫖”,却让开发者遭到“背刺”!
  • Redis不再 “开源”
  • Kimi,今年的VC之光
  • 马斯克的星舰项目到底哪里伟大了?
  • LLM、RAG虽好,但XGBoost更香!
  • 宋东桓:Sora可能会颠覆好莱坞,但优秀更取决于想象力 |T前线
  • 股票涨停、泼天流量,Kimi受宠若惊到宕机:预计25日恢复,200万无损窗口实测:好用!不失优秀、免费的国产大模型产品!
  • 分库分表设计及常见问题
  • 全网独家“Java面试+进阶学习”资源合集,手慢则无!
  • 今日代码 PK | 使用 try-with-resources 关闭资源
  • 面试被拷打,真面不动了。。。