新智元报道
编辑:编辑部RTX 4090,已经在热搜上挂了两天!
昨天,美国对华禁售H800和A800等尖端AI芯片的消息曝出。根据新规,性能达到一定水平的GPU都需要额外的许可证。
而在英伟达向美国证券交易委员会(SEC)提交的官方文件中,赫然出现了一个大家都没想到的产品——RTX 4090。
根据中信证券的计算,如果按照「性能密度」来看,4090的确属于被管制的范畴。
消息一出,各路店铺的4090直接被买爆。
不过,美国商务部当天发布的官方文件里,其实还包含这样一句话——
作为这些更新的一部分,我们还将引入一项豁免,允许出口用于消费者应用的芯片。
于是,「4090被禁事件」的热度还没过,今天开始网上又开始流传「大反转」的消息。
美国是否会批准英伟达关于4090的豁免申请,还需要让子弹再飞一会。
这一波三折的反转之间,黄牛是赢麻了。
现在,市面上的4090已经涨到了差不多3万元一张,并且还在一路暴涨。
受此影响,游戏圈一片哀嚎——谁也没想到,芯片禁令还能让游戏都不能打了?而且,4090影响的不止是游戏玩家,很多国内的人工智能研究机构也会受到波及。对此,也有不少人激动表示——国产显卡,你们的机会来了!芯片禁令与摩尔定律
就在今天,美国著名科技分析师Ben Thompson在博客上发表了一篇长文,针对目前的芯片禁令给出了分析。
这次出口管制,主要的目标就是H800和A800,两款专为应为封禁而设计的「中国定制版」。
而H800/A800与H100/A100的主要区别,就在于互连带宽——
A100的互连带宽为600 GB/s(这恰好是去年出口管制规定的上限),H100为 900GB/s;A800和H800的互连带宽限制为400 GB/s。
互联速度之所以重要,是因为英伟达首席执行官黄仁勋之前提出的论断——摩尔定律已死。
摩尔定律最初是摩尔在1965年提出的,指出集成电路中的晶体管数量每年都会翻一番。
10年后,摩尔修正了自己的预测,改为每两年翻一番,这一预测一直持续到最近十年左右,现在,已经放缓到大约每三年翻一番。
然而,在实践中,摩尔定律更像是科技行业的基本规则:随着时间的推移,计算能力会越来越强,价格也会越来越低。
为了方便描述,作者提出了一个Moore’s Precept,它是建立在摩尔定律的基础之上——
更小的晶体管开关速度更快,开关过程中消耗的能量更少,甚至可以在一个晶圆上安装更多的晶体管。
这也就意味着,你可以在每个晶圆上安装更多的芯片,或者更大的芯片,这要么会降低价格,要么可以在价格不变的前提下提高功率。在实践中,我们往往会两者兼得。
而科技行业的其他企业,并不需要了解摩尔定律的技术或经济细节。
60年来,科技从业者可以理所当然地认为计算机的速度会越来越快,所以他们会追逐最前沿的技术,并且相信处理器的速度一定赶上自己的用例。
只要看到一个用例有可能,就足够了。如果它还没有达到最佳,Moore’s Precept会提供优化方案,让它达到最佳。
摩尔定律和Moore’s Precept之间的区别,就是理解黄仁勋所称「摩尔定律已死」的关键。
从技术角度来看,摩尔定律的确已经放缓,但密度仍在继续增加。
以下是按台积电不同工艺节点划分的晶体管密度,使用的是每个节点的初代版本:
但是,成本也非常重要。
以下是同一张表格,列出了台积电单个晶圆的价格,以及换算成十亿晶体管的价格——
这张表右下角的数字中,就藏着华点——
台积电的5nm工艺,让每个晶体管的价格都上涨了,而且涨幅很大,达到了20%。
原因是显而易见的,5nm是第一个需要使用ASML极紫外光刻技术(EUV)的工艺,而EUV机器价格昂贵,每台约为1.5亿美元。
换句话说,虽然摩尔定律的技术定义会继续下去,但芯片的速度和成本却不会一直提高。
要明确的是,老黄的论点并不仅仅停留在5nm芯片的成本上,还有速度方面。
请记住,摩尔定律既关乎速度,也关乎成本。
而事实是,随着从移动设备、个人电脑到数据中心等所有领域的能源,成为制约因素,因此芯片密度的提高主要是为了提高能效。
黄仁勋数年来的论点是,英伟达拥有一个让计算速度更快的解决方案:使用GPU。
GPU的复杂性远低于CPU,这意味着它们可以更快地执行指令,但这些指令必须简单得多。
与此同时,你可以同时运行大量的GPU,能够获得超乎寻常的效果。
图形处理是「尴尬并行」最明显的例子:
GPU上的每一个「着色器」(GPU的主要处理组件)负责计算屏幕上的一个特定区域显示的内容。
这个区域的大小,取决于有多少个着色器。如果有1024个着色器,每个着色器就会绘制屏幕区域的1/1024。
因此,如果有2048个着色器,绘制屏幕的速度就会快一倍。
图形处理的性能具有「尴尬的并行性」,也就是说,随着投入处理器数量的增加,其性能也会实现线性提升。
这种「尴尬的并行性」,就是GPU性能,超越CPU的关键之所在。
然而目前面临的挑战是,并非所有软件问题都能轻松并行化。
英伟达的CUDA生态系统,就是为了提供工具,来构建可利用GPU并行性的软件应用。这也正是支撑英伟达占据主导地位的主要护城河之一。
但是,大多数软件应用仍然需要CPU的复杂性,才能运行。
AI和大多数软件不一样。
事实证明,无论是训练模型,还是利用模型推理,AI都是一种尴尬的并行应用。此外,最佳的可扩展性远远超出了显示图形的计算机显示器。
这就是为什么英伟达的AI芯片具有芯片禁令中提到的「高速互连」功能——
AI应用可以同时在多个AI芯片上运行,但确保这些GPU高速运转的关键,就在于向它们提供数据,这时,就需要高速互连。
因此,作者对传统数据中心应用全面转向GPU的说法持怀疑态度。
在他看来,人类和公司都很懒,基于CPU的应用程序不仅更容易开发,而且大多已经构建完成。
鲜少有哪家公司,会花时间和精力将已经在CPU上运行的东西移植到GPU上。
归根结底,在云上运行的应用程序是由提供云资源需求的客户决定的,而不是由寻求优化FLOP/rack的云提供商决定的。
另外,事实证明,Moore’s Precept很可能重回正轨,因此,传统CPU仍然具有生命力。
上面的表格只介绍了5nm的情况,不过iPhone 15 Pro采用的是N3芯片,它的价格/晶体管如下所示:
在3nm节点上,目前用于iPhone A17 Pro芯片的是N3B工艺,而作为未来N3系列基础的,则是更进一步的N3E。
这也使得N3在「价格/晶体」管方面的飞跃更加令人印象深刻:N3B解决了5nm工艺的倒退问题,而N3E则比7nm工艺有了明显的改进。
在收益方面,虽然「价格/晶圆」一直在持续增长,但「价格/十亿晶体管」却在不断下降,这便是摩尔定律的作用。
也就是说,新设备(如EUV)能让我们「在集成电路上嵌入更多元件」。
5nm的情况与上一次价格/十亿晶体管上涨时,20nm的情况类似:
台积电在这一节点开始使用了双层掩模版技术(double-patterning),这意味着他们必须将每个光刻步骤进行2次。
这既使每个晶圆的光刻设备利用率增加了一倍,同时也降低了良品率。
至少就20nm而言,生产更小晶体管所带来的收益超过了成本。
但到了3nm工艺,EUV的收益已经远远超过了成本,而关于2nm密度和价格的早期传言表明,这种收益应该会持续到下一个节点。
总而言之,作者发现,台积电通过EUV实现的新工艺N3E,取得了比先前N3B工艺更大的价格/十亿晶体管提升。
这使得摩尔定律在5nm工艺后的进步态势重新复燃。
Ben Thompson曾在上个月的一篇博客文章中总结道:
- 台积电已经证明了可以使用基于深紫外线(DUV)的浸入式光刻技术制造7nm芯片,而中国拥有大量的DUV光刻机。
- 中芯国际(SMIC)也在2022年造出了7nm芯片。- 但制造成本极高。以英特尔为例,它们本可以用DUV光刻技术生产7nm芯片,但由于成本的原因,最终转向采用了EUV技术。也就是说,SMIC使用DUV光刻技术生产7nm芯片并不意外,但也不代表芯片禁令被绕过了。实际上,关键在于5nm节点,换句话说,真正会限制中国长期发展的出口管制是EUV技术。此前,美国已经说服了荷兰ASML不再出口EUV光刻机,而拜登政府通过芯片禁令和与荷兰的进一步协调进一步锁死了这点。H800采用的是台积电第三代5nm工艺(被称为N4),也就是说,它是通过EUV制造的。不过,针对互连速率的限制,则会直接拖慢AI的研发速度并让成本更高。这虽然不能完全阻止AI的发展,但要想实现Moore’s Precept,EUV光刻机是必须的。参考资料:https://stratechery.com/2023/china-chips-and-moores-law/