急缺！高校GPU告急，李飞飞辛顿求救

全球学术界正面临系统性的GPU短缺问题。编译 | 陈骏达
编辑 | Panken
智东西7月18日消息，据外媒报道，由于AI算力集群价格高企与大企业订单挤兑，许多美国高校正面临算力的严重短缺，这导致了高校AI研究的滞后与AI研究人才的流失。高校的算力荒由来已久，连顶级高校和学术大牛们也被这一问题困扰。今年5月，斯坦福大学教授李飞飞称学术界正在面临AI计算资源的严重短缺，斯坦福大学的NLP实验室只有64块GPU（英伟达A100）。图灵奖得主杰弗里·辛顿（Geoffery Hinton）更是在学生求助时直言：“我不知道这个问题除了求政府之外还有什么办法。”与之产生鲜明对比的是，Facebook母公司Meta预计将在2024年底拥有算力相当于60万块英伟达H100的庞大算力集群，几乎是斯坦福NLP实验室集群的10000倍。但斯坦福大学NLP实验室的这64块GPU，在不少其它高校的学生看来已是天方夜谭了。实际上除了像普林斯顿大学、德国亚琛工业大学等少数顶尖院校外，不少高校甚至连1块英伟达A100 GPU也没有。在Reddit论坛上的一则相关讨论中，有北美高校博士生反映小型高校只能获得多年前英伟达发布的V100 GPU。而欧洲和亚洲的高校情况则更为严峻，有不少高校只能使用英伟达的消费级显卡做AI研究。即便这样，算力也极为短缺，有些学生必须自费购买显卡或者从英伟达、亚马逊云服务（AWS）等处申请算力补贴。不少高校也在努力改变现状，比如通过校际合作建立共享计算集群，或是转而从事其它对算力要求更低的AI研究方向。
01.算力短缺人才流失，高校的GPU荒有多严重？

其实，在过去的很长一段时间里，高校一直处在AI研究的最前沿，有不少突破性的进展都是由高校的研究人员做出的。例如，2015年，斯坦福大学的博士后雅沙·索尔·迪克斯坦（Jascha Sohl-Dickstein）便发明了全世界第一个扩散模型，这成为后续不少图片和视频生成模型的基础。虽然高校的基础研究对于技术创新浪潮至关重要，但近期的生成式AI研究一直由私营公司主导。这主要是因为他们能够获得构建和训练类似ChatGPT和Gemini这样的大模型所需的算力和数据。生成式AI研究是十分昂贵的。OpenAI首席执行官萨姆·阿尔特曼（Sam Altman）曾估计，训练GPT-4的成本约为1亿美元。而Meta首席执行官马克·扎克伯格（Mark Zuckerberg）曾在2024年初宣布计划购买35万块英伟达H100 GPU，将Meta的算力扩展到相当于60万块英伟达H100 GPU的水平。按照H100近4万美元的售价来算，这将是一笔百亿美元量级的大订单。目前，全球没有任何高校能负担得起这种量级的AI算力基础设施。普林斯顿大学作为CS强校，拥有美国高校中最大的几个单一AI算力集群之一，但这一集群也仅有300块英伟达H100 GPU，还是今年3月才正式引入的。普林斯顿大学语言与智能中心主任桑吉夫·阿罗拉（Sanjeev Arora）在谈及这一问题时说道，“如果你没有算力，就没办法开展大规模研究，这样你连参与对话的资格都没有”。在Reddit论坛上的一则相关讨论中，一位来自美国排名前5的机器学习实验室的博士生称，他们迄今为止连1块英伟达H100都没有。

▲来自美国排名前5的机器学习实验室的博士生的提问（图源：Reddit）

一位来自亚洲的博士生也面临着同样的困境。他自己使用的GPU大部分都是消费级的，并且只有一两块而非集群。他的学校直到最近才拥有了一个配备8块H100的的服务器，并且只能限时访问。这位博士生说，在他有幸使用H100 GPU进行训练的两周时间里，他取得的数据比之前半年收集到的数据还要多。

▲一位在亚洲从事CV研究的学生回忆自己曾使用过的一系列GPU（图源：Reddit）

还有一位学生分享道，自己的学校没办法提供任何算力上的支持。他只能通过自己的实习公司获取1000美元AWS云算力额度，如果用这些额度来跑8块H100的集群，大概只能用1天，这种量级的算力根本做不出高质量研究。他还称这是第三世界国家搞AI研究的常态。

▲一位硕士生分享自己通过实习公司获取计算额度的经历（图源：Reddit）

而欧洲高校的算力资源也不容乐观。有位在德国上学的学生分享道，自己十分幸运，因为他的学校还能提供的16块A100 GPU和数十块其它型号的GPU。而在欧洲，许多大学和研究实验室基本不提供算力支持。

▲一位欧洲学生对自己拥有的计算资源感到庆幸（图源：Reddit）

另一位来自德国亚琛工业大学的学生分享，他的学校拥有超过200块英伟达H100 GPU，这引得许多网友的羡慕。但这些资源是所有学院共享的，还要与外部机构共用，如果需要较长的计算时间，需要特别申请。

▲德国亚琛工业大学学生分享学校算力情况（图源：Reddit）

来自产业界的人士对高校的GPU短缺情况感到意外。一名业界人士称，自己在一家主要的云计算提供商工作，日常经常接触H100 GPU，为其开发和修复软件。还有另一位业界人士称，H100等需求量较大的尖端GPU在添加到数据中心之前，通常就被大企业客户大量预订了，因此H100对大多数研究人员来说是“罕见的”。

▲产业界人士对高校GPU短缺感到意外（图源：Reddit）

在计算资源不足的情况下，进行长时间的训练是极为奢侈的。高校的AI算力集群往往需要提前几天甚至数周申请，即便是用上了，使用时长也有限制。许多较大的训练任务很难在一个使用周期内完成，研究人员还必须花额外的精力构建checkpoint和恢复代码。计算资源的短缺也带来了高校人才流失的问题，那些有志于做生成式AI研究的学生转向了大公司。因为大型科技公司普遍拥有比高校多上成百上千倍的算力，这对AI人才来说极具吸引力。
02.建立算力联盟、转变研究方向，高校既不甘也不能落后

面临着AI研究落后和AI人才流失的危机，不少高校正在争取额外的算力，并将研究重点转向非算力密集型的AI研究领域。哥伦比亚大学机械工程系主任霍德·利普森（Hod Lipson）称：“学术机构正在争先恐后地获得算力。”他还强调，虽然工业界和政府在AI研究中的参与很重要，但为了平衡这两股力量，学术界、开源开发者等其它人士也应该对这项技术的发展有发言权。为缓解高校的算力紧缺问题，不少高校让政府参与到了算力集群的建设过程中。2024年初，包括哥伦比亚大学、康奈尔大学、纽约大学和伦斯勒理工学院在内的7所大学和科研机构，联合纽约州政府与慈善机构创建了一个名为Empire AI的算力联盟。

▲Empire AI的联盟成员（图源：Empire AI官网）

这一算力联盟筹集了近4亿美元的资金。其中的2.75亿美元来自政府，剩余资金则来自参与联盟的7所高校和研究机构。他们将利用这笔资金建立一个先进的AI计算中心，而联盟成员间可以共享这些计算资源，同时也有效地分摊了持有成本。谈及建立这一联盟的理由，纽约州长办公室称，目前AI算力资源越来越集中在大型科技公司手中，他们对AI开发生态系统有巨大的控制权。因此，研究人员、公益组织和小公司被抛在了后面，这对AI安全和整个社会产生了巨大影响。学术界和产业界也在积极开展合作，这在硅谷、西雅图和奥斯汀等美国的科技中心城市已经比较常见了。华盛顿大学计算机科学与工程学院副院长丹·格罗斯曼称，他们有一些项目允许学术研究人员也能在工业界工作。学术人员能获得更好的资源，而大学也还可以留住这些人才。其实，有不少具有重要意义的AI研究对算力的要求并不高，比如AI可解释性研究、AI计划和推理能力研究等。在算力限制下，大学研究人员开始做更有针对性的研究，确保学界不会完全被业界超越。康奈尔大学计算与信息科学学院院长卡维塔·巴拉（Kavita Bala）称，高校可以减少对构建和训练大语言模型的投入，而更多地关注开发基于大语言模型的应用。这样的应用仍然可以是最前沿的，在独特的应用领域发挥巨大作用。麻省理工学院教授阿尔曼多·索拉尔·莱萨马（Armando Solar-Lezama）的工作重点是利用AI进行代码开发，他认为从头开始构建大模型在学术界根本不可行。学生和研究人员可以专注于开发应用程序，甚至创建可用于训练大语言模型的合成数据。索拉尔·莱萨马称自己学院的教授们也主动出资购买服务器和芯片，但资金并非唯一的问题。即便有资金，获得顶级的GPU也是十分困难的。
03.结语：高校AI算力荒持续，多方合作或有破局希望

在目前大型科技企业主导AI研究的现状下，高校的AI研究是对这些研究的有效补充。高校的研究者不会像企业内部的研究者那样，受财报、市场需求等短期因素的影响。他们若能获得更多的计算资源，或许能在那些企业不会关注、不愿关注的领域，做出有重大影响力的成果。其实在过去几十年中，AI一直是一个不被看好的研究领域，还不得不披上深度学习、机器学习的马甲。但正是因为高校中有诸如辛顿、杨立昆（Yann LeCun）和约书亚·本吉奥（Yoshua Bengio）这样持之以恒的研究者，几十年如一日地坚持相关研究，如今的AI热潮才有了实现的基础。除了在纽约州有Empire AI这样的算力联盟之外，北美的不少高校和研究机构也开展了规模大小各异的跨机构合作，共享算力资源。2023年底，中国的十余所院校也成立了中国高校算力联盟。或许这种合作能给高校的算力荒带来破局的希望。来源：《华尔街日报》、Reddit（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

急缺！高校GPU告急，李飞飞辛顿求救

相关推荐