4090暴涨到3万,库存险被扫光!EUV被封5nm工艺被锁死?


  新智元报道  

编辑:编辑部
【新智元导读】美国商务部对我国禁售尖端AI芯片,竟意外波及到了4090显卡?最近,国外一位科技大佬直言:封禁EUV才是关键,5nm工艺直接被锁死。

RTX 4090,已经在热搜上挂了两天!

昨天,美国对华禁售H800和A800等尖端AI芯片的消息曝出。根据新规,性能达到一定水平的GPU都需要额外的许可证。

而在英伟达向美国证券交易委员会(SEC)提交的官方文件中,赫然出现了一个大家都没想到的产品——RTX 4090。

根据中信证券的计算,如果按照「性能密度」来看,4090的确属于被管制的范畴。

消息一出,各路店铺的4090直接被买爆。

不过,美国商务部当天发布的官方文件里,其实还包含这样一句话——

作为这些更新的一部分,我们还将引入一项豁免,允许出口用于消费者应用的芯片。

于是,「4090被禁事件」的热度还没过,今天开始网上又开始流传「大反转」的消息。

美国是否会批准英伟达关于4090的豁免申请,还需要让子弹再飞一会。

这一波三折的反转之间,黄牛是赢麻了。

现在,市面上的4090已经涨到了差不多3万元一张,并且还在一路暴涨。

受此影响,游戏圈一片哀嚎——谁也没想到,芯片禁令还能让游戏都不能打了?而且,4090影响的不止是游戏玩家,很多国内的人工智能研究机构也会受到波及。对此,也有不少人激动表示——国产显卡,你们的机会来了!

芯片禁令与摩尔定律

就在今天,美国著名科技分析师Ben Thompson在博客上发表了一篇长文,针对目前的芯片禁令给出了分析。

这次出口管制,主要的目标就是H800和A800,两款专为应为封禁而设计的「中国定制版」。

而H800/A800与H100/A100的主要区别,就在于互连带宽——

A100的互连带宽为600 GB/s(这恰好是去年出口管制规定的上限),H100为 900GB/s;A800和H800的互连带宽限制为400 GB/s。

互联速度之所以重要,是因为英伟达首席执行官黄仁勋之前提出的论断——摩尔定律已死。

摩尔定律最初是摩尔在1965年提出的,指出集成电路中的晶体管数量每年都会翻一番。

10年后,摩尔修正了自己的预测,改为每两年翻一番,这一预测一直持续到最近十年左右,现在,已经放缓到大约每三年翻一番。

然而,在实践中,摩尔定律更像是科技行业的基本规则:随着时间的推移,计算能力会越来越强,价格也会越来越低。

为了方便描述,作者提出了一个Moore’s Precept,它是建立在摩尔定律的基础之上——

更小的晶体管开关速度更快,开关过程中消耗的能量更少,甚至可以在一个晶圆上安装更多的晶体管。

这也就意味着,你可以在每个晶圆上安装更多的芯片,或者更大的芯片,这要么会降低价格,要么可以在价格不变的前提下提高功率。在实践中,我们往往会两者兼得。

而科技行业的其他企业,并不需要了解摩尔定律的技术或经济细节。

60年来,科技从业者可以理所当然地认为计算机的速度会越来越快,所以他们会追逐最前沿的技术,并且相信处理器的速度一定赶上自己的用例。

只要看到一个用例有可能,就足够了。如果它还没有达到最佳,Moore’s Precept会提供优化方案,让它达到最佳。

摩尔定律,终结了?

摩尔定律和Moore’s Precept之间的区别,就是理解黄仁勋所称「摩尔定律已死」的关键。

从技术角度来看,摩尔定律的确已经放缓,但密度仍在继续增加。

以下是按台积电不同工艺节点划分的晶体管密度,使用的是每个节点的初代版本:

但是,成本也非常重要。

以下是同一张表格,列出了台积电单个晶圆的价格,以及换算成十亿晶体管的价格——

这张表右下角的数字中,就藏着华点——

台积电的5nm工艺,让每个晶体管的价格都上涨了,而且涨幅很大,达到了20%。

原因是显而易见的,5nm是第一个需要使用ASML极紫外光刻技术(EUV)的工艺,而EUV机器价格昂贵,每台约为1.5亿美元。

换句话说,虽然摩尔定律的技术定义会继续下去,但芯片的速度和成本却不会一直提高。

GPU和并行性

要明确的是,老黄的论点并不仅仅停留在5nm芯片的成本上,还有速度方面。

请记住,摩尔定律既关乎速度,也关乎成本。

而事实是,随着从移动设备、个人电脑到数据中心等所有领域的能源,成为制约因素,因此芯片密度的提高主要是为了提高能效。

黄仁勋数年来的论点是,英伟达拥有一个让计算速度更快的解决方案:使用GPU。

GPU的复杂性远低于CPU,这意味着它们可以更快地执行指令,但这些指令必须简单得多。

与此同时,你可以同时运行大量的GPU,能够获得超乎寻常的效果。

图形处理是「尴尬并行」最明显的例子:

GPU上的每一个「着色器」(GPU的主要处理组件)负责计算屏幕上的一个特定区域显示的内容。

这个区域的大小,取决于有多少个着色器。如果有1024个着色器,每个着色器就会绘制屏幕区域的1/1024。

因此,如果有2048个着色器,绘制屏幕的速度就会快一倍。

图形处理的性能具有「尴尬的并行性」,也就是说,随着投入处理器数量的增加,其性能也会实现线性提升。

这种「尴尬的并行性」,就是GPU性能,超越CPU的关键之所在。

然而目前面临的挑战是,并非所有软件问题都能轻松并行化。

英伟达的CUDA生态系统,就是为了提供工具,来构建可利用GPU并行性的软件应用。这也正是支撑英伟达占据主导地位的主要护城河之一。

但是,大多数软件应用仍然需要CPU的复杂性,才能运行。

AI和大多数软件不一样。

事实证明,无论是训练模型,还是利用模型推理,AI都是一种尴尬的并行应用。此外,最佳的可扩展性远远超出了显示图形的计算机显示器。

这就是为什么英伟达的AI芯片具有芯片禁令中提到的「高速互连」功能——

AI应用可以同时在多个AI芯片上运行,但确保这些GPU高速运转的关键,就在于向它们提供数据,这时,就需要高速互连。

因此,作者对传统数据中心应用全面转向GPU的说法持怀疑态度。

在他看来,人类和公司都很懒,基于CPU的应用程序不仅更容易开发,而且大多已经构建完成。

鲜少有哪家公司,会花时间和精力将已经在CPU上运行的东西移植到GPU上。

归根结底,在云上运行的应用程序是由提供云资源需求的客户决定的,而不是由寻求优化FLOP/rack的云提供商决定的。

另外,事实证明,Moore’s Precept很可能重回正轨,因此,传统CPU仍然具有生命力。

EUV是关键

上面的表格只介绍了5nm的情况,不过iPhone 15 Pro采用的是N3芯片,它的价格/晶体管如下所示:

在3nm节点上,目前用于iPhone A17 Pro芯片的是N3B工艺,而作为未来N3系列基础的,则是更进一步的N3E。

这也使得N3在「价格/晶体」管方面的飞跃更加令人印象深刻:N3B解决了5nm工艺的倒退问题,而N3E则比7nm工艺有了明显的改进。

在收益方面,虽然「价格/晶圆」一直在持续增长,但「价格/十亿晶体管」却在不断下降,这便是摩尔定律的作用。

也就是说,新设备(如EUV)能让我们「在集成电路上嵌入更多元件」。

5nm的情况与上一次价格/十亿晶体管上涨时,20nm的情况类似:

台积电在这一节点开始使用了双层掩模版技术(double-patterning),这意味着他们必须将每个光刻步骤进行2次。

这既使每个晶圆的光刻设备利用率增加了一倍,同时也降低了良品率。

至少就20nm而言,生产更小晶体管所带来的收益超过了成本。

但到了3nm工艺,EUV的收益已经远远超过了成本,而关于2nm密度和价格的早期传言表明,这种收益应该会持续到下一个节点。

总而言之,作者发现,台积电通过EUV实现的新工艺N3E,取得了比先前N3B工艺更大的价格/十亿晶体管提升。

这使得摩尔定律在5nm工艺后的进步态势重新复燃。

禁令虽不完善,但有用

Ben Thompson曾在上个月的一篇博客文章中总结道:

- 台积电已经证明了可以使用基于深紫外线(DUV)的浸入式光刻技术制造7nm芯片,而中国拥有大量的DUV光刻机。

- 中芯国际(SMIC)也在2022年造出了7nm芯片。- 但制造成本极高。以英特尔为例,它们本可以用DUV光刻技术生产7nm芯片,但由于成本的原因,最终转向采用了EUV技术。也就是说,SMIC使用DUV光刻技术生产7nm芯片并不意外,但也不代表芯片禁令被绕过了。实际上,关键在于5nm节点,换句话说,真正会限制中国长期发展的出口管制是EUV技术。此前,美国已经说服了荷兰ASML不再出口EUV光刻机,而拜登政府通过芯片禁令和与荷兰的进一步协调进一步锁死了这点。H800采用的是台积电第三代5nm工艺(被称为N4),也就是说,它是通过EUV制造的。不过,针对互连速率的限制,则会直接拖慢AI的研发速度并让成本更高。这虽然不能完全阻止AI的发展,但要想实现Moore’s Precept,EUV光刻机是必须的。参考资料:https://stratechery.com/2023/china-chips-and-moores-law/




相关推荐

  • 人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源
  • 用Python实现自动扫雷!
  • AI实时解读大脑信号,7倍速还原图像关键视觉特征,LeCun转发
  • 全都不及格!斯坦福100页论文给大模型透明度排名,GPT-4仅排第三
  • OpenAI图像检测工具曝光,CTO:AI生成的99%都能认出
  • 网易互娱这样用AIGC, 爆款游戏只是牛刀小试|量子位智库对话
  • Transformer一作来卷多模态!学术图表也能看懂,100毫秒极速响应|免费试玩
  • 10年市场规模1.3万亿美元,「模力时代」已来
  • 大模型总弄错「事实」怎么办?这有一份汇聚了300多篇文献的综述
  • 狂揽4k star,AI通过强化学习玩宝可梦,两万场后成功拿下
  • OpenAI新模型研发遇挫,稀疏性是大模型降本的钥匙吗?
  • 4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍
  • RTX 4090也被禁售了?
  • 每日 24 亿事件处理:Airbnb 的 Riverbed 技术解析
  • 国内首个“AI 原生应用商店”上线!
  • 三问 AIOps:是否是个摆设?如何衡量业务价值?落地成本有多大?
  • 剑指 Kubernetes!微软发布开源平台 Radius:高效构建、运行云原生应用程序
  • 超火迷你GPT-4视觉能力暴涨,GitHub两万星,华人团队出品
  • 开源智能体来啦!港大团队发布OpenAgents,可以搞数据分析、聊天、支持200+插件
  • RTX4090显卡禁售,价格暴涨1万后,又反转了?!