▲英伟达为CoreWeave“站台”(图源:CoreWeave官网)
那么,CoreWeave是如何从一家“挖矿”公司起家,摇身成为AI算力新秀的?它为什么能得到英伟达的“偏爱”?与其他云厂商相比,它有什么不同之处?让我们从CoreWeave的发展历程来探知答案。▲CoreWeave今年的融资情况(图源:Crunchbase)
虽然英伟达只参与了其中4月进行的B轮融资,但在8月初官宣的债务融资中,CoreWeave拿出了当下高度抢手的英伟达H100芯片作为抵押品,似乎在宣告自己的“特权”。英伟达CEO黄仁勋也对CoreWeave赞不绝口。在2023年8月23日的财报电话会议上,黄仁勋谈道,未来,投资数据中心的最佳方式就是从通用计算转向生成式AI加速计算,“你会看到一大批新的GPU专业云服务提供商,CoreWeave就是其中很有名的一家,他们的表现好到令人难以置信”。▲2023年8月SIGGRAPH 2023大会上,黄仁勋出现在CoreWeave展位(图源:CoreWeave)
英伟达对CoreWeave的“偏爱”或许可以追溯到三年前。早在2020年9月,CoreWeave便宣布加入英伟达合作伙伴网络(NPN)内的云服务提供商(CSP)计划,将GPU加速引入云端为分散的劳动力提供支持。在NPN计划中,英伟达将合作伙伴分为注册、优选、精英三个级别。2021年7月,CoreWeave宣布成为NPN计划中首个计算领域的精英CSP,这意味着CoreWeave可以抢先体验英伟达产品和技术,并获得解决技术问题的专用支持渠道。英伟达云计算和战略合作伙伴全球业务开发总监Matt McGrigg称,将CoreWeave命名为首个计算领域的精英合作伙伴,体现了他们利用英伟达广泛的计算资源为AI、ML(机器学习)、HPC(高性能计算)和渲染用例提供世界级解决方案的能力。▲英伟达NPN计划对合作伙伴的等级划分
2022年11月,CoreWeave宣布成为首批提供采用英伟达H100超级计算机云实例的供应商之一,其他首批供应商包括亚马逊、谷歌、微软、甲骨文等。CoreWeave宣称,与大型通用公共云相比,其定价可为客户节省高达80%的费用。2023年6月,CoreWeave与英伟达共同刷新了MLPerf基准测试的记录,通过3584个H100集群,在CoreWeave云上仅用了11分钟就完成了基于GPT-3的大规模基准测试。▲英伟达AI和H100在大规模应用中创下的纪录
▲从左到右依次是Intrator、Venturo、McBee
Intrator担任CoreWeave首席执行官,负责公司运营的各个方面。在创办CoreWeave之前,他曾创办了一家天然气对冲基金公司。今年8月,他曾入选外媒The Information评选的企业软件领域最具影响力人物Top 30。Venturo担任CoreWeave首席技术官,此前从事能源投资相关工作,曾在Intrator的天然气对冲基金公司工作了5年。McBee担任CoreWeave首席战略官,他在云计算和数据分析方面拥有丰富的专业知识。在创办CoreWeave之前,他从事过金融分析师、自营交易员等职业,还拥有能源研究和咨询背景。Intrator在2021年的一篇博客中写道,2016年,他们购买了第一块GPU并插上电源,在曼哈顿下城一间办公桌的台球桌上,成功在以太坊网络上开采了第一个区块。这原本是一个“有趣的”下午,然而随着2017年早期加密货币热潮的来袭,他们的业余爱好也变成了事业。不久之后,三人成立了Atlantic Crypto,也就是CoreWeave的前身。在筹集了几笔小额早期的投资,采购了一些“投机性”的硬件设备后,台球桌变成了车库,成为他们在新泽西州的第一个数据中心。随后,CoreWeave在2018至2019年间“战略性”地收购硬件,GPU数量扩充到数万个。很快,CoreWeave接到了大量的企业订单。这些企业都依赖于GPU加速,但面临着传统云服务商价格垄断、计算种类有限,因此难以扩展的痛点。McBee在接受彭博社时谈道,在2018年末,他们已经拥有超过5万个GPU,占以太坊网络的1%以上。2019年,CoreWeave开始转向构建专门的云基础设施。据McBee称,他们发现用于加密货币挖矿的旧式零售级GPU设备,并不适合用于运行企业级工作负载,不能支持全球最大的AI公司,因此转向只专注购买英伟达提供的企业级GPU芯片组,包括A100、H100等,并将围绕这些芯片调整公司业务。2021年11月,CoreWeave获得Magnetar Capital的5000万美元投资时,对自己的定位是“专为英伟达GPU加速工作负载而打造的专业云提供商”。虽然事后来看,CoreWeave的转型出于偶然,但随着AI的飞速发展,市场对GPU算力的需求指数级增长,CoreWeave也乘上这辆顺风车。今年8月,McBee在接受VentureBeat采访时透露,2022年,CoreWeave营收为3000万美元,2023年将达到5亿美元,而明年已经签署了近20亿美元的合同,目前正在建设12个不同的数据中心。▲位于德克萨斯州的CoreWeave数据中心
▲2017-2022年全球云基础设施服务供应商市场份额(图源:Statista)
从收入来看,AWS、Azure和谷歌云去年的营收分别为801亿美元、753亿美元和263亿美元。显然,这些数字是CoreWeave去年营收的数百甚至数千倍。我们不禁发问,CoreWeave为何在一众云巨头中脱颖而出,如此受到英伟达的青睐?根据多家外媒的分析,以及McBee在接受彭博社采访时的回答,CoreWeave的“受宠”主要有以下几个方面的原因:首先,从英伟达的角度来看,McBee认为对英伟达而言,最重要的是让其最终用户能够以最高效、最快速的方式大规模地访问其计算。CoreWeave按照DGX参考规格进行基础设施构建,并且在新一代芯片组发布后的几个月内将其上线,而不像传统的超大规模数据中心一样花费几个季度的时间。McBee称,正因为能做到这一点,才使CoreWeave在英伟达内部获得了极佳的资源分配。CoreWeave的商业理念是承诺较低,交付较高,这使得英伟达有信心将基础设施分配给他们。其次,在与云巨头的竞争方面,AWS、微软和谷歌在过去几年花费了数十亿美元来开发自己的芯片,以支持其云计算业务和内部项目,减少对英伟达的依赖。这使得云巨头与英伟达存在产品上的潜在竞争关系。据The Information报道,AWS曾建议一些公司在无法访问英伟达GPU时租用由其定制芯片Trainium提供支持的服务器。谷歌云向其客户出租定制TPU芯片,AI创企Midjourney曾表示,它一直在使用基于云的TPU来训练其机器学习模型。相比之下,CoreWeave对英伟达构成的威胁较小,因为它不设计自己的芯片。此外,与云巨头的产品差异化,也是CoreWeave有力的竞争优势之一。据McBee称,通过基础设施、软件等的差异化,在工作负载调整基础上,CoreWeave能提供“相对任何超级大厂而言,效率提高大约40%至60%的产品”。不过,英伟达的AI创企投资版图上,CoreWeave也不是唯一一家云服务提供商。与之类似的,还有一家深度学习基础设施公司Lambda Labs。Lambda Labs成立于2012年,同样于2019年左右转型为AI计算提供商。从规模来看,Lambda比CoreWeave要小。据Crunchbase数据显示,它目前共获得6轮融资,总金额为1.122亿美元。与CoreWeave不同的是,Lambda主要专注于On-demand的AI训练市场。大量科研机构、SMB(中小企业业务)以及开源社区需要几百或一千张左右的A100或H100来进行一些大模型的尝试,相对于比头部公司,这类型客户的特点是订单持续时间较短,中短期内需求量大,订单不确定性较高。Lambda的优势在于定价足够友好。而Coreweave凭借早期与Inflection等核心AI公司的合作获得了极高供货优先级。在2023年初,Coreweave便找到Inflection,为其提供几千张H100。英伟达看中了这个组合中的巨大潜力,先后向两家公司投资数亿美元,并通过抬高Coreweave的H100的供货优先级来为Inflection提供2.2万张H100。McBee称,对于像Inflection这样的客户,CoreWeave会制定大型构建的时间表,然后向英伟达解释自己正在做什么。而英伟达会说:“我们会在工程设计、市场营销、基础设施、分配等方面为你提供支持,无论你需要什么,我们都会帮你完成。”CoreWeave要做的就是执行。值得一提的是,今年9月,CoreWeave任命Mike Mattacola为首席商务官,负责新市场的增长和扩张,而Mattacola此前曾在Lambda就职一年多,担任首席运营官。▲Mike Mattacola近期的工作经历(图源:领英)