Llama-3背后基础训练设施全揭秘：两个24KGPU集群，共4.9万个H100

作者丨Kevin Lee、Adi Gangidi、Mathew Oldham编译丨诺亚
日前，Meta在官网公布了两个全新的24K H100 GPU集群（49,152个），并就新集群的技术细节做了逐一剖析。它们各自拥有超过2.4万个GPU，并在硬件、网络、存储、设计、性能和软件等方面上，专为支持大型语言模型如Llama 3进行训练而深度优化。
此次公告也被Meta团队视为其基础设施路线图中的一个关键步骤。“到2024年底，我们的目标是继续扩大基础设施建设，其中包括350,000个NVIDIA H100 GPU，构成的计算能力相当于近600,000个H100 GPU的组合。”
要在人工智能开发领域保持领先地位就意味着要引领对硬件基础设施的投资。硬件基础设施对于AI的未来发展起着至关重要的作用。今天，我们在Meta公布了两个版本的24,576-GPU数据中心规模集群的具体细节。这些集群支持我们当前及下一代的人工智能模型，包括作为已公开发布的LLM——Llama 2的继任者Llama 3，以及GenAI和其他领域的AI研究与开发工作。

深入探索Meta的大规模人工智能集群

Meta 的长期愿景是构建开放且负责任地构建的通用人工智能（AGI），以便它能够广泛可用，让每个人都能从中受益。在我们努力实现 AGI 的同时，我们也专注于扩展我们的集群以提供所需动力。我们在AGI方面取得的进步催生出新产品、我们旗下一系列应用的新AI功能，以及以AI为核心的新型计算设备。尽管我们在构建AI基础设施方面有着悠久的历史，但在2022年首次公开介绍了搭载16,000个NVIDIA A100 GPU的AI研究超级集群（RSC）。RSC加速了我们开放且负责任的AI研究进程，帮助我们构建第一代先进AI模型。它在Llama和Llama 2的发展过程中发挥了重要作用，并且仍在发挥作用，同时也在计算机视觉、自然语言处理、语音识别、图像生成甚至编程等应用领域的先进AI模型研发中扮演着重要角色。

深入了解技术细节

我们的新一代AI集群建立在RSC的成功和经验教训基础之上。我们专注于构建端到端的人工智能系统，特别强调提升研究者和开发者的体验及工作效率。这些集群内部采用高效的高性能网络架构，结合关键存储解决方案，在每个集群中配备多达24,576个NVIDIA Tensor Core H100 GPU，使得这些新版本的集群能够支持比RSC时期更大的、更复杂的模型训练。这种硬件配置为推进AI产品开发中的新一代（GenAI）技术和研究铺平了道路。

网络部分 在Meta，我们每天处理数以万亿计的AI模型执行任务。要在如此大规模上提供这些服务，需要高度先进且灵活的基础架构。通过定制大量自己的硬件、软件和网络结构，我们可以针对AI研究人员优化端到端体验，同时确保数据中心高效运行。为此，我们构建了一个基于Arista 7800系列交换机配合Wedge400和Minipack2 OCP机架式交换机构建的远程直接内存访问（RDMA）在聚合以太网（RoCE）网络结构方案的集群；另一个集群则采用了NVIDIA Quantum2 InfiniBand网络结构。这两种方案均能连接400 Gbps端点。通过这两个不同类型的互连解决方案，我们能够评估它们在大规模训练中的适用性和可扩展性，从而获得更多的见解，指导未来更大规模集群的设计与构建。经过精心的网络、软件和模型架构协同设计，我们成功地在RoCE和InfiniBand集群上运行大型、面向新一代AI（GenAI）的工作负载（包括在RoCE集群上对我们正在进行的Llama 3模型训练），并且未出现任何网络瓶颈。

计算部分 这两个集群都基于我们内部设计并贡献给开放计算项目（OCP）的开放式GPU硬件平台“大提顿”（Grand Teton）构建。大提顿整合了多代AI系统的优点，将电源、控制、计算和结构接口集成在一个单一机箱中，以实现更好的整体性能、信号完整性和热性能。该平台提供了快速的可扩展性和简化设计下的灵活性，使其能够迅速部署到数据中心群集，并易于维护和扩展。结合我们其他的内部创新成果，如Open Rack供电和机架架构，大提顿让我们能够以针对Meta当前和未来应用的方式构建新的集群。自2015年的Big Sur平台开始，我们就一直在公开设计GPU硬件平台。

存储部分 在AI训练中，存储扮演着重要角色，但往往也是讨论最少的部分之一。随着GenAI训练任务逐渐变得更加多模态，消耗大量图像、视频和文本数据，数据存储的需求快速增长。然而，如何在保证高性能的同时兼顾节能，将所有这些数据存储空间紧凑化的问题依然存在，这使得问题更具挑战性。我们的存储部署通过由Meta专为Flash介质优化的“Tectonic”分布式存储解决方案支持的用户空间Linux文件系统（FUSE）API来满足AI集群的数据和检查点需求。这一解决方案使数千个GPU能够同步保存和加载检查点（这对任何存储解决方案都是一个挑战），同时也提供了用于数据加载所需的灵活、高吞吐量的EB级存储容量。此外，我们还与Hammerspace合作共同开发并实施了一种并行网络文件系统（NFS）部署，以满足此AI集群的开发者体验要求。Hammerspace带来诸多优势，其中之一便是能够让工程师在数千个GPU环境中进行交互式调试，代码更改会立即对所有节点可见。当Tectonic分布式存储解决方案与Hammerspace相结合时，能够在不牺牲规模的前提下实现快速迭代速度。我们GenAI集群中的Tectonic和Hammerspace支持的存储部署均基于YV3 Sierra Point服务器平台，并升级到了市场上最新、最大容量的E1.S SSD。除了更高的SSD容量外，我们还根据每台服务器的吞吐量容量、减少机架数量和相关的电源效率等因素定制了每机架的服务器数量。利用OCP服务器如同乐高积木般的构建模块，我们的存储层能够灵活地按需扩展，适应这个集群以及未来更大规模AI集群的要求，同时在日常基础设施维护操作中保持容错性。

性能部分 在构建大规模AI集群时，我们坚持的一个原则是同时最大限度地提高性能和易用性，而不会相互影响，这对于创造最佳级别的AI模型至关重要。当我们不断探索AI系统的极限时，检验我们设计扩展能力的最好方式就是实际构建系统、优化它并进行测试（虽然模拟器有所帮助，但其局限性明显）。在这个设计过程中，我们将小集群和大集群的性能进行了对比，找出瓶颈所在。下图显示的是，在大量GPU之间以预期达到峰值性能的消息大小进行通信时，AllGather集体操作性能（以0-100标度标准化带宽表示）。最初，相比优化后的中小型集群，我们大型集群的开箱即用性能较差且不稳定。为了解决这个问题，我们对内部作业调度器进行了改进，使其具有网络拓扑感知能力，从而降低延迟，减少流入网络高层的流量。同时，我们还优化了网络路由策略，并结合NVIDIA Collective Communications Library (NCCL) 的调整，以实现网络资源的最佳利用。这些举措促使我们的大型集群达到了与小型集群同样出色且预期的性能水平。

在图表中，我们可以观察到小型集群（总体通信带宽和利用率）未经优化就能达到90%以上的水平，而未经优化的大规模集群性能表现非常差，利用率仅在10%至90%之间波动。然而，在我们对整个系统（包括软件、网络等方面）进行优化之后，大型集群的性能恢复到了理想的90%以上范围。除了针对内部基础设施的软件改动，我们还与编写训练框架和模型的团队紧密合作，以适应我们不断发展的基础设施。例如，NVIDIA H100 GPU开启了使用8位浮点数（FP8）等新型数据类型进行训练的可能性。充分利用大型集群需要投入额外的并行化技术，而新的存储解决方案则为跨数千个rank的高度优化检查点运行提供了机会，使其能在数百毫秒内完成。我们还认识到调试能力是大规模训练的主要挑战之一。在大规模环境下，识别导致整个训练作业停滞的问题GPU变得极其困难。因此，我们正在开发诸如desync debug（异步调试）或分布式集体飞行记录器之类的工具，以揭示分布式训练的详细信息，更快更容易地识别问题。最后，我们正持续改进PyTorch这一支撑我们AI工作负载的基础AI框架，使其准备好应对成千甚至数万个GPU的训练需求。我们已经识别出了进程组初始化过程中的多个瓶颈，并将启动时间从有时需要数小时缩短到了几分钟。

对开放AI创新的承诺Meta始终坚持在AI软件和硬件方面的开放创新承诺。我们坚信开源硬件和软件始终是帮助行业解决大规模问题的宝贵工具。如今，作为OCP（开放计算项目）的创始成员，我们继续支持开放硬件创新，将诸如Grand Teton和Open Rack等设计向OCP社区开放。同时，我们仍然是PyTorch的主要贡献者，这是为行业内大部分应用场景提供动力的AI软件框架。我们同样持续致力于AI研究领域的开放创新。我们已经推出了“开放创新AI研究社区”，这是一个与学术研究者合作的伙伴计划，旨在深化我们对如何负责任地开发和分享AI技术的理解，尤其是关注大型语言模型（LLMs）。对于Meta来说，采取开放的AI方法并不新鲜。我们还发起了AI联盟，这是一个集结了AI行业领先组织的团体，专注于在开放社区中加速负责任的AI创新。我们的AI努力建立在开放科学和跨协作的理念之上。开放生态带来了透明度、审查机制和信任，促进了AI开发的信任与安全，并引领出人人皆可受益、以安全和责任为核心构建的创新成果。

Meta未来AI基础设施展望 这两个AI训练集群设计只是我们更大规模AI未来蓝图的一部分。到2024年底，我们的目标是继续扩大基础设施建设，其中包括350,000个NVIDIA H100 GPU，总计算能力相当于近600,000个H100 GPU。展望未来，我们认识到昨天或今天奏效的方法可能无法满足明天的需求。因此，我们不断地评估和完善基础设施的各个方面，从物理和虚拟层到软件层乃至更多层面。我们的目标是创建既灵活又可靠的系统，以支持快速演进的新模型和研究。
参考链接：https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

Llama-3背后基础训练设施全揭秘：两个24KGPU集群，共4.9万个H100

深入了解技术细节

相关推荐