大部分实验室,比斯坦福还差多了
两个月前,AI教母李飞飞曾在采访中表示,斯坦福的自然语言处理(NLP)小组只有64块A100 GPU。面对学术界如此匮乏的AI资源,李飞飞可谓是痛心疾首。而这位发帖的网友也表示,自己在攻读博士学位期间(全美排名前五的学校),计算资源是一个主要的瓶颈。如果能有更多高性能的GPU,计算时间会显著缩短,研究进度也会快很多。所以,他的实验室里到底有多少H100呢?答案是——0。他向网友们发出提问:你们实验室里都有多少GPU?能从亚马逊、英伟达那里拿到额外的算力赞助吗?年轻的研究者们纷纷自曝自己所在学校或公司的GPU情况,暴露出的事实,让所有人大为惊讶。1张2080Ti+1张3090,已是全部
一位似乎是亚洲的网友表示,虽然自己的研究方向是计算机视觉(CV)并不是机器学习,但在2019年刚开始时,只能够使用一块2080 Ti显卡。2021年,有机会使用一台配备V100和RTX 8000显卡的服务器。2022年,获得了使用一块3090显卡的权限。2023年,能够使用另一个实验室的一组服务器,这些服务器包括12块2080 Ti、5块3090和8块A100显卡。同年,还获得了一项计算资助,可以使用A100显卡三个月。2024年,学校购买了一台配有8块H100显卡的服务器,并允许试用一个月。此外,在2021年到2023年期间,也可以从一个本地学术提供商那里按小时租用GPU。除了2080 Ti和3090这两张显卡外,大多数这些资源都是共享的。题主问:这里的「a」就是字面意义上的「一个」么?网友表示,是的,就是这么艰苦……有人现身表示,自己可太惨了:没有显卡,没有credits。因为所在大学无法提供帮助,只能让实习公司帮自己获得一些。一位2022年底毕业的博士也自曝称,实验室专用的服务器共搭载了差不多30块GPU,其中每台服务器配有4张显卡。(由于购买时间不同,性能也参差不齐)不过,同一实验室里抢GPU的事情还是时有发生。对此,有网友总结道,0 GPU很常见。理由也非常简单:我们并不需要开着法拉利来学车。而且在开始,机器学习的基础是线代、统计和编程,之后才是硬件流程的优化。而GPU严重匮乏的问题,在我国高校的实验室内也很普遍。甚至,有博主发帖称,某大学的课程竟要求学生自备算力设备。五人一组的学生,至少拥有2块3090/4090,或者是1块40G A100,才能完成课程要求的LLM训练任务。那么问题来了,为何高校自己不能多采购一些GPU呢?知友「网瘾大爷」表示,高校直接购买GPU非常不划算。LLM训练参数规模增大,需要的是多机多卡,以及让卡之间串联的网络。不仅有学习成本、还有维护成本,这对于高校来说投入之大。所以比较常见的方式是,去租用服务器。清华计算机系在读博士孙恒提出了同样的问题,卡可以买,但问题是,放在哪?当然,有人在负重前行,自然也有人岁月静好。比如下面这些学校,相比起来就要「富裕」得多了。「H100,我们也就几百块吧」
有网友透露,普林斯顿语言与智能研究所(PLI)和哈佛Kempner研究所拥有最大的计算集群,分别配备了300块和400块H100 GPU。而这个信息,也得到了一位普林斯顿研究者的佐证——在普林斯顿,可以使用的集群有三种。- 小组集群有所不同,但对于10个人来说,32块GPU的分配很合理
- 部门集群的资源更多,不过也需要看具体的部门
- 大学集群Della则拥有(128x2)+(48x4)个A100和(96x8)个H100总之,普林斯顿和哈佛都可以说是显卡大户。此外,也有网友爆料说,UT Austin拥有600块H100。蒙特利尔大学的博士生表示,自己的实验室大约有500块GPU,主要是A100 40GB和80GB。德国亚琛工业大学的网友表示,学提供了一个包含52块GPU节点的计算集群,每个节点配备4块H100 GPU。这些资源当然是所有院系共享的,其他一些机构也能使用。不过,即使是学生,每个月也会分配到一定的集群使用时间。如果你需要更多的计算时间,可以申请不同规模的专用计算项目。「我非常喜欢这个系统,能够使用它,对我来说是一次改变研究进程的机会。」对如此充沛的算力,题主表示非常羡慕。另一位欧洲的网友也表示,自己的实验室有大约16块实验室专用的A100 GPU,并且还能通过几个不同的额外集群访问更多的GPU。由于这些集群有很多用户,所以具体规模很难估计,但每个集群大约每年提供12万GPU小时的计算时间。不过,超过80GB的GPU内存需求是一个瓶颈。目前来说,总共能用的约为5块H100。类似的,这位网友所在的实验室,也相当富裕:「我们实验室有8块H100和8块L40S,专供5名博士生和3名博士后免费使用。」最后,截取一些「凡尔赛」网友的发言。比如,这位在云计算供应商工作的网友就表示,这个帖子很有趣,因为自己竟不知道H100是这么稀有。或者,从单位分不到显卡,那就干脆自己买一块。紧俏的H100,为何如此重要
最近,英伟达的市值一度突破3.3万亿美元,登顶全球第一。这背后最耀眼的明星,莫过于它的H100 GPU了。
总结
图形场景可分为三组:流式传输、虚拟桌面和渲染农场。如果没有视频输入模型,那么它就不是图形场景。这就是推理,而此类任务最好被描述为人工智能视频。卡可以处理加密的视频源,并且A100配备了硬件视频解码器来完成此类任务。这些解码器将馈送转换为数字格式,使用神经网络对其进行增强,然后将其传回。在整个过程中,显示器上不会出现任何视觉内容,因此虽然H100和A100可以熟练地训练与视频或图像相关的模型,但它们实际上并不产生任何视频。这就是另一个故事了。参考资料:https://www.reddit.com/r/MachineLearning/comments/1dlsogx/d_academic_ml_labs_how_many_gpus/https://medium.com/nebius/nvidia-h100-and-other-gpus-which-are-relevant-for-your-ml-workload-15af0b26b919L4:经济实惠的通用GPU,适用于各种用例。它是一款入门级模型,是通往GPU加速计算世界的门户。
L40:针对生成式AI推理和视觉计算工作负载进行了优化。
A100:为传统CNN网络的单节点训练提供了卓越的性价比。
H100:BigNLP、LLMs和Transformer的最佳选择。它还非常适合分布式训练场景以及推理。