4090暴涨到3万，库存险被扫光！EUV被封5nm工艺被锁死？

新智元报道

编辑：编辑部

【新智元导读】美国商务部对我国禁售尖端AI芯片，竟意外波及到了4090显卡？最近，国外一位科技大佬直言：封禁EUV才是关键，5nm工艺直接被锁死。

RTX 4090，已经在热搜上挂了两天！

昨天，美国对华禁售H800和A800等尖端AI芯片的消息曝出。根据新规，性能达到一定水平的GPU都需要额外的许可证。

而在英伟达向美国证券交易委员会（SEC）提交的官方文件中，赫然出现了一个大家都没想到的产品——RTX 4090。

根据中信证券的计算，如果按照「性能密度」来看，4090的确属于被管制的范畴。

消息一出，各路店铺的4090直接被买爆。

不过，美国商务部当天发布的官方文件里，其实还包含这样一句话——

作为这些更新的一部分，我们还将引入一项豁免，允许出口用于消费者应用的芯片。

于是，「4090被禁事件」的热度还没过，今天开始网上又开始流传「大反转」的消息。

美国是否会批准英伟达关于4090的豁免申请，还需要让子弹再飞一会。

这一波三折的反转之间，黄牛是赢麻了。

现在，市面上的4090已经涨到了差不多3万元一张，并且还在一路暴涨。

受此影响，游戏圈一片哀嚎——谁也没想到，芯片禁令还能让游戏都不能打了？而且，4090影响的不止是游戏玩家，很多国内的人工智能研究机构也会受到波及。对此，也有不少人激动表示——国产显卡，你们的机会来了！

芯片禁令与摩尔定律

就在今天，美国著名科技分析师Ben Thompson在博客上发表了一篇长文，针对目前的芯片禁令给出了分析。

这次出口管制，主要的目标就是H800和A800，两款专为应为封禁而设计的「中国定制版」。

而H800/A800与H100/A100的主要区别，就在于互连带宽——

A100的互连带宽为600 GB/s（这恰好是去年出口管制规定的上限），H100为 900GB/s；A800和H800的互连带宽限制为400 GB/s。

互联速度之所以重要，是因为英伟达首席执行官黄仁勋之前提出的论断——摩尔定律已死。

摩尔定律最初是摩尔在1965年提出的，指出集成电路中的晶体管数量每年都会翻一番。

10年后，摩尔修正了自己的预测，改为每两年翻一番，这一预测一直持续到最近十年左右，现在，已经放缓到大约每三年翻一番。

然而，在实践中，摩尔定律更像是科技行业的基本规则：随着时间的推移，计算能力会越来越强，价格也会越来越低。

为了方便描述，作者提出了一个Moore’s Precept，它是建立在摩尔定律的基础之上——

更小的晶体管开关速度更快，开关过程中消耗的能量更少，甚至可以在一个晶圆上安装更多的晶体管。

这也就意味着，你可以在每个晶圆上安装更多的芯片，或者更大的芯片，这要么会降低价格，要么可以在价格不变的前提下提高功率。在实践中，我们往往会两者兼得。

而科技行业的其他企业，并不需要了解摩尔定律的技术或经济细节。

60年来，科技从业者可以理所当然地认为计算机的速度会越来越快，所以他们会追逐最前沿的技术，并且相信处理器的速度一定赶上自己的用例。

只要看到一个用例有可能，就足够了。如果它还没有达到最佳，Moore’s Precept会提供优化方案，让它达到最佳。

摩尔定律，终结了？

摩尔定律和Moore’s Precept之间的区别，就是理解黄仁勋所称「摩尔定律已死」的关键。

从技术角度来看，摩尔定律的确已经放缓，但密度仍在继续增加。

以下是按台积电不同工艺节点划分的晶体管密度，使用的是每个节点的初代版本：

但是，成本也非常重要。

以下是同一张表格，列出了台积电单个晶圆的价格，以及换算成十亿晶体管的价格——

这张表右下角的数字中，就藏着华点——

台积电的5nm工艺，让每个晶体管的价格都上涨了，而且涨幅很大，达到了20%。

原因是显而易见的，5nm是第一个需要使用ASML极紫外光刻技术（EUV）的工艺，而EUV机器价格昂贵，每台约为1.5亿美元。

换句话说，虽然摩尔定律的技术定义会继续下去，但芯片的速度和成本却不会一直提高。

GPU和并行性

要明确的是，老黄的论点并不仅仅停留在5nm芯片的成本上，还有速度方面。

请记住，摩尔定律既关乎速度，也关乎成本。

而事实是，随着从移动设备、个人电脑到数据中心等所有领域的能源，成为制约因素，因此芯片密度的提高主要是为了提高能效。

黄仁勋数年来的论点是，英伟达拥有一个让计算速度更快的解决方案：使用GPU。

GPU的复杂性远低于CPU，这意味着它们可以更快地执行指令，但这些指令必须简单得多。

与此同时，你可以同时运行大量的GPU，能够获得超乎寻常的效果。

图形处理是「尴尬并行」最明显的例子：

GPU上的每一个「着色器」（GPU的主要处理组件）负责计算屏幕上的一个特定区域显示的内容。

这个区域的大小，取决于有多少个着色器。如果有1024个着色器，每个着色器就会绘制屏幕区域的1/1024。

因此，如果有2048个着色器，绘制屏幕的速度就会快一倍。

图形处理的性能具有「尴尬的并行性」，也就是说，随着投入处理器数量的增加，其性能也会实现线性提升。

这种「尴尬的并行性」，就是GPU性能，超越CPU的关键之所在。

然而目前面临的挑战是，并非所有软件问题都能轻松并行化。

英伟达的CUDA生态系统，就是为了提供工具，来构建可利用GPU并行性的软件应用。这也正是支撑英伟达占据主导地位的主要护城河之一。

但是，大多数软件应用仍然需要CPU的复杂性，才能运行。

AI和大多数软件不一样。

事实证明，无论是训练模型，还是利用模型推理，AI都是一种尴尬的并行应用。此外，最佳的可扩展性远远超出了显示图形的计算机显示器。

这就是为什么英伟达的AI芯片具有芯片禁令中提到的「高速互连」功能——

AI应用可以同时在多个AI芯片上运行，但确保这些GPU高速运转的关键，就在于向它们提供数据，这时，就需要高速互连。

因此，作者对传统数据中心应用全面转向GPU的说法持怀疑态度。

在他看来，人类和公司都很懒，基于CPU的应用程序不仅更容易开发，而且大多已经构建完成。

鲜少有哪家公司，会花时间和精力将已经在CPU上运行的东西移植到GPU上。

归根结底，在云上运行的应用程序是由提供云资源需求的客户决定的，而不是由寻求优化FLOP/rack的云提供商决定的。

另外，事实证明，Moore’s Precept很可能重回正轨，因此，传统CPU仍然具有生命力。

EUV是关键

上面的表格只介绍了5nm的情况，不过iPhone 15 Pro采用的是N3芯片，它的价格/晶体管如下所示：

在3nm节点上，目前用于iPhone A17 Pro芯片的是N3B工艺，而作为未来N3系列基础的，则是更进一步的N3E。

这也使得N3在「价格/晶体」管方面的飞跃更加令人印象深刻：N3B解决了5nm工艺的倒退问题，而N3E则比7nm工艺有了明显的改进。

在收益方面，虽然「价格/晶圆」一直在持续增长，但「价格/十亿晶体管」却在不断下降，这便是摩尔定律的作用。

也就是说，新设备（如EUV）能让我们「在集成电路上嵌入更多元件」。

5nm的情况与上一次价格/十亿晶体管上涨时，20nm的情况类似：

台积电在这一节点开始使用了双层掩模版技术（double-patterning），这意味着他们必须将每个光刻步骤进行2次。

这既使每个晶圆的光刻设备利用率增加了一倍，同时也降低了良品率。

至少就20nm而言，生产更小晶体管所带来的收益超过了成本。

但到了3nm工艺，EUV的收益已经远远超过了成本，而关于2nm密度和价格的早期传言表明，这种收益应该会持续到下一个节点。

总而言之，作者发现，台积电通过EUV实现的新工艺N3E，取得了比先前N3B工艺更大的价格/十亿晶体管提升。

这使得摩尔定律在5nm工艺后的进步态势重新复燃。

禁令虽不完善，但有用

Ben Thompson曾在上个月的一篇博客文章中总结道：

- 台积电已经证明了可以使用基于深紫外线（DUV）的浸入式光刻技术制造7nm芯片，而中国拥有大量的DUV光刻机。

- 中芯国际（SMIC）也在2022年造出了7nm芯片。

- 但制造成本极高。以英特尔为例，它们本可以用DUV光刻技术生产7nm芯片，但由于成本的原因，最终转向采用了EUV技术。

也就是说，SMIC使用DUV光刻技术生产7nm芯片并不意外，但也不代表芯片禁令被绕过了。实际上，关键在于5nm节点，换句话说，真正会限制中国长期发展的出口管制是EUV技术。此前，美国已经说服了荷兰ASML不再出口EUV光刻机，而拜登政府通过芯片禁令和与荷兰的进一步协调进一步锁死了这点。

H800采用的是台积电第三代5nm工艺（被称为N4），也就是说，它是通过EUV制造的。不过，针对互连速率的限制，则会直接拖慢AI的研发速度并让成本更高。这虽然不能完全阻止AI的发展，但要想实现Moore’s Precept，EUV光刻机是必须的。参考资料：https://stratechery.com/2023/china-chips-and-moores-law/