夕小瑶科技说 原创
作者 | 智商掉了一地
刚刚结束的英伟达 GTC2024 大会,可谓是赚足了观众眼球。老黄放出了“AI芯片核弹” —— B200,面向 AI 模型的新一代 Blackwell GPU 架构,支持万亿参数级模型训练。
这款芯片到底是什么量级的存在?它是不是新的 AIGC 浪潮的定海神针?
B200 真的已经碾压了其他芯片?
这让人们不禁开始思考,其他芯片厂商是否还有机会追赶这一巨头的步伐?是能继续保持住陪跑者身份,还是望尘莫及?
英伟达(NVIDIA)作为领先的图形处理器和 AI 芯片制造商,它在两年前推出的 H100 芯片在 ChatGPT、GPT-4 推出后身价水涨船高,甚至成为稀缺的“国际战略物资”。甚至直到几个月前,其他头部竞争对手的产品才能和 H100 相媲美。
基于新一代Blackwell架构的 B200 相比上一代 Hopper H100 ,再次迎来质的升级,性能显著提升。
可以这样直观地感受:在之前,GPT-4 需要约 8000 个 Hopper GPU 和 15 兆瓦的功率,执行 90 天的训练,而相同的 AI 训练只需使用 2000 个 Blackwell GPU,消耗 4 兆瓦的功率即可完成。这意味着 Blackwell GPU 在性能上的提升不仅仅是线性的,它又是一次新飞跃。
▲GTC 大会对 GB200 的介绍此外,GB200 Grace Blackwell Superchip将不再只是芯片,而是结合了两个 B200 芯片的强大平台。这款产品的诞生,更关键的不止在算力的提升,而是能耗和成本的降低。
▲Nvidia GB200 Grace Blackwell 超级芯片,图源 Nvidia巨大的性能提升:GB200芯片拥有 2080 亿个晶体管,相较于上一代 H100 芯片只有800亿个晶体管,算力提升了 6 倍。
在处理多模态特定领域任务时,其算力更是能达到 H100 的 30 倍。
能耗和成本大幅降低:GB200 与 H100 相比,仅需原来 1/25 的成本和能耗。
先进的技术组件:GB200 集成了诸多先进技术,包括第二代 Transformer 引擎、第五代 NVLink 高速互联技术、Ras Engine 和 Secure AI 等。
那么究竟什么是算力,又该如何初步评判芯片的性能呢?我们先简单明确一下这些概念:
简单来说,算力计算方式就是把芯片的峰值算力(单位:TFLOPS)乘以位宽(单位:bits),这样就能得到总处理性能(单位:TTP),即:
总处理性能=芯片峰值算力×位宽
举个例子,假设一款芯片的峰值算力是 2 TFLOPS,位宽是 64 bits,那么它的总处理性能就是:2 TFLOPS × 64 bits = 128 TTP。
在AI芯片竞争激烈的当下,AMD被认为是最有望与英伟达竞争的公司。
AMD CEO 苏姿丰:“英伟达现在占有大量市场,但是我们可以在这个市场分一杯羹。”
苏妈在23年12月份的AMD发布会上官宣了其最新AI芯片,用于模型训练和推理的 MI300X GPU 和用于 HPC 高性能计算的 MI300A APU,当时对标的是H100,要知道 H100 是英伟达22年3月份发布的 Hopper 架构芯片,整整领先了第二名AMD一年的时间。
据官方发布的各个维度的对比测评数据来看,MI300X相比H100的提升在 1.X-2.X倍的数据提升。比如:MI 300X的内存配置是H100的2.4 倍,FP8、FP16、TF32算力是英伟达H00的 1.3 倍。
和AMD几乎同时,硬件处理器老大哥英特尔宣布在美国市场推出了自家AI芯片 Gaudi 3,宣称 Gaudi3 的性能将优于英伟达的 H100,不过这一说法并未得到验证,预计2024年正式上市。
从图表中能够看到,虽然这些国外头部芯片厂商之间的角逐非常激烈,但英伟达的多项产品仍都处于领先地位。
▲图源 semianalysis▲头部芯片商产品对比Gaudi3 MI300X 对标的都是 H100,且都在24年交付市场,如今24年已过去1/4的时间,AI芯片三足鼎立的场面恐怕来的更晚一些了。
在这场 AI 芯片的竞争中,还有一些新兴的初创公司和专注于特定市场细分领域的玩家。例如,Graphcore 和 Cerebras Systems 等公司正在开发专门针对 AI 和机器学习工作负载优化的处理器,这些处理器在某些应用场景中可能会提供比传统芯片更高的性能。
每家公司都在努力提高其产品的性能、效率和可扩展性,以满足从大模型AIGC、数据中心、云计算到边缘设备的各种计算需求。
英伟达凭借其在 AI 领域的早期投入和持续的技术创新,以及与云服务提供商和企业的深度合作,在 AI 硬件和软件生态系统中保持了显著的优势。
在 GTC 大会上透露,已有多家大型企业和云服务提供商(包括亚马逊云科技、谷歌、微软、Oracle 等)计划采用 GB200 架构的产品,未来将可能通过云服务的模式,出售 GB200 的接入权。
从上面分析不难看出,目前AI芯片的市场只有英伟达和其他,其他公司包括第二第三还在赶超英伟达两三年前的产品,英伟达已经拉开其他多个迭代轮回的距离。
再来看看国内的芯片情况,
大部分已经投入商用的国产芯片产品(包括华为昇腾 910)对比英伟达最新的 AI 芯片产品,起步较晚,虽然已在奋力追赶,但在性能上仍存在一定的差距。
▲AI 芯片国产替代方案,资料源《财经十一人》目前来看,能够实现量产并且打开国内市场的多是华为、阿里、百度、腾讯等互联网大厂,以及寒武纪、天数智芯等独角兽公司的产品,其他大部分芯片厂商的产品基本都面向特定的应用场景。
美国芯片出口jin令限制了高端芯片如 A100 和 H100 的销售,提供了降级版本 A800 和 H800 给中国公司,这对国内 AI 和 GPU 依赖行业是挑战。然而,这也促使国产芯片需求增加,为本土企业提供了市场机遇,推动技术进步。
▲NVIDIA 芯片性能与半导体限制政策前后比较昇腾 910 作为华为海思自主研发的 AI 芯片,其算力超过英伟达 V100,接近 A100/A800 80G PCIe 版本,但与 H100/H800 相比仍有较大差距。尽管如此,昇腾系列以其丰富产品线和软硬件结合,成为众多企业的选择。但由于昇腾 910 不支持 32 位浮点运算,在 AI 应用方面,目前多用于华为自身生态中的大模型业务。
▲昇腾 910B 与英伟达 A800 的对比天数智芯在 2021 年推出了代表产品天垓 100,基本可以对标英伟达发布于 2017 年的 V100,虽与 V100 相隔四年,但天垓 100 实现了国内通用 GPU 从 0 到 1 的重要突破,也能确保自主可控,且能兼容 CUDA,便于算法和应用迁移。
AI 领域独角兽企业寒武纪已经量产了许多 AI 处理器,其在 2020 年发布的旗舰产品 MLU370-X8 主要面向训练任务,它支持互联,能高效执行大模型的训练推理任务。
之前我们的各种芯片主要都靠技术进口,在政策限制的挑战下,国内芯片企业如华为海思、寒武纪、中芯国际、紫光集团等纷纷加大研发力度,力争在关键技术上实现突破。华为海思的麒麟 990 芯片在智能手机市场取得成就,尤其在 5G 和 AI 领域表现突出,中芯国际也在制造工艺上紧追国际先进水平。
不过,目前的环境对于芯片初创企业来说还是举步维艰,就算是谷歌和英伟达这种超大规模的公司,也都依赖于游戏行业或者内部需求为 AI 芯片的研发“输血”,尚未有哪家公司只靠着卖 AI 芯片就能在市场上屹立潮头,创业公司基本都面临着亏损,需要源源不断的巨额融资来支撑发展。
国内半导体产业链正在加速重构,涵盖材料、设计、制造到封装测试的全链条,力求自主可控。尽管与国际顶尖水平存在差距,但基础半导体材料和设备的国产化已取得显著进展。在芯片设计方面,也涌现出众多拥有自主知识产权的企业。
此外,国家各项扶持政策的实施,也会在一定程度上加快国产芯片技术的研发和产业化进程。国产芯片企业也在积极探索与国内外的合作机会。通过技术引进和合作提升产品竞争力。在某些细分市场,如物联网、智能家居、5G 通信等领域,国产芯片已经开始展现出较强的竞争力。
国产芯片要实现长远发展,除性能之外还需充分考虑生态适配等多方面因素。
最近的上海半导体博览会上,除了很多卡脖子的设备厂商,不少新材料相关企业也前往参展,也吸引了很多投资人在现场寻找机会。期待国内芯片厂商持续发力,在集成电路生产方面,努力缩短与台湾省之间的差距,甚至赶超,在未来的全球半导体市场中占据一席之地。
总之,B200 芯片的推出,展示了英伟达在 AI 芯片技术上的领先地位,也预示了 AI 技术在各行各业的应用将进一步加速部署。
对于其他芯片制造商来说,英伟达的这一突破无疑是一个巨大的挑战。
摩尔定律的放缓曾引发对半导体行业未来的担忧,但新的技术突破和应用场景总在不经意间出现,推动行业发展。
因此,这并不代表其他芯片厂商就此无法追赶。他们可以通过硬件设计、软件优化和专用加速器的创新,继续在这个快速发展的 AI 计算竞赛中寻找自己的立足点。
而未来的芯片市场,注定充满变数和挑战,但也正是这样的不确定性,才让我们对技术进步的未来充满无限的期待和憧憬~