无限规模:Azure AI 超级工厂背后的架构 - 微软官方博客

2025-11-12 17:36:32 英文原文

作者:Scott Guthrie

今天,我们将在佐治亚州亚特兰大推出 Azure AI 数据中心的下一个 Fairwater 站点。这个专门构建的数据中心连接到我们的第一个威斯康星州费尔沃特站点、前几代 AI 超级计算机和更广泛的 Azure 全球数据中心足迹,打造世界上第一个全球规模的 AI 超级工厂。通过比以往更密集地打包计算能力,每个 Fairwater 站点的构建都是为了有效满足对 AI 计算的前所未有的需求,推动模型智能的前沿,并帮助地球上的每个人和组织取得更多成就。

为了满足这一需求,我们重新设计了人工智能数据中心以及在其中运行的系统的设计方式。Fairwater 背离了传统的云数据中心模式,采用单一扁平网络,可以将数十万个最新的 NVIDIA GB200 和 GB300 GPU 集成到大型超级计算机中。这些创新是数十年设计数据中心和网络的经验以及支持全球一些最大的人工智能培训工作的经验的产物。

虽然 Fairwater 数据中心的设计非常适合训练下一代前沿模型,但它在构建时也考虑到了可替代性。训练已经从单一的整体工作发展成为一系列具有不同要求的工作负载(例如预训练、微调、强化学习和合成数据生成)。Microsoft 部署了专用的 AI WAN 主干网,将每个 Fairwater 站点集成到更广泛的弹性系统中,从而实现不同 AI 工作负载的动态分配,并最大限度地提高组合系统的 GPU 利用率。

下面,我们将介绍一些支持 Fairwater 的令人兴奋的技术创新,从我们构建数据中心的方式到站点内部和站点之间的网络。

最大计算密度

现代人工智能基础设施越来越受到物理定律的约束。光速现在是我们将加速器、计算和存储与高性能延迟紧密集成的能力的一个关键瓶颈。Fairwater 旨在最大限度地提高计算密度,最大限度地减少机架内和机架间的延迟,并最大限度地提高系统性能。

提高密度的关键杠杆之一是大规模改善冷却。Fairwater 数据中心的人工智能服务器连接到一个专为延长使用寿命而设计的全设施冷却系统,采用闭环方法,在初始填充后连续重复使用液体,不会蒸发。初次注水所用的水相当于 20 个家庭一年的用水量,并且只有在水化学表明需要时才会进行更换(设计使用寿命为 6 年以上),这使其非常高效且可持续。

基于液体的冷却还提供更高的传热,使我们能够最大限度地提高机架和行级功率(每个机架约 140kW,每行 1,360kW),以便在数据中心内尽可能密集地进行计算。最先进的冷却还帮助我们在稳态操作中最大限度地利用这种密集计算,使大型训练作业能够大规模高性能运行。经过 GPU 机群的冷板路径系统循环后,热量由地球上最大的冷却装置之一散发。

An image of a rack level direct liquid cooling
机架级直接液冷。

我们提高计算密度的另一种方法是采用两层数据中心建筑设计。许多人工智能工作负载对延迟非常敏感,这意味着电缆运行长度会对集群性能产生重大影响。Fairwater 中的每个 GPU 都与其他每个 GPU 连接,因此两层数据中心构建方法允许在三个维度上放置机架,以最大程度地减少电缆长度,从而提高延迟、带宽、可靠性和成本。

An image of two-story networking architecture
二层网络架构。

高可用性、低成本电源

我们正在通过经济高效、可靠的电源来突破这一计算服务的极限。选择亚特兰大站点时考虑到了具有弹性的公用电力,并且能够以 3 × 9 的成本实现 4 × 9 的可用性。通过确保高度可用的电网电源,我们还可以放弃 GPU 群的传统弹性方法(例如现场发电、UPS 系统和双线配电),从而为客户节省成本并加快 Microsoft 的上市时间。

我们还与行业合作伙伴合作,共同开发电源管理解决方案,以减轻大规模工作造成的电力振荡,随着人工智能需求的扩大,电力振荡对于维持电网稳定性来说是一个日益严峻的挑战。这包括一个软件驱动的解决方案,在活动减少期间引入补充工作负载;一个硬件驱动的解决方案,其中 GPU 强制执行自己的功率阈值;以及一个现场能量存储解决方案,以进一步掩盖功率波动而不利用多余的功率。

尖端加速器和网络系统

Fairwater 的世界一流数据中心设计由专用服务器、尖端人工智能加速器和新颖的网络系统提供支持。每个 Fairwater 数据中心都运行一个由互连的 NVIDIA Blackwell GPU 组成的单一连贯集群,具有先进的网络架构,可以通过当前一代交换机可靠地扩展,超越传统的 Clos 网络限制(单个扁平网络上有数十万个 GPU)。这需要在纵向扩展网络、横向扩展网络和网络协议方面进行创新。

在扩展方面,每个 AI 加速器机架最多可容纳 72 个 NVIDIA Blackwell GPU,通过 NVLink 连接,以在机架内实现超低延迟通信。Blackwell 加速器提供当今最高的计算密度,支持 FP4 等低精度数字格式,以提高总 FLOPS 并实现高效的内存使用。每个机架提供 1.8 TB 的 GPU 到 GPU 带宽,每个 GPU 拥有超过 14 TB 的池化内存。

An image of densely populated GPU racks with app driven networking
密集的 GPU 机架和应用程序驱动的网络。

然后,这些机架使用横向扩展网络来创建 Pod 和集群,使所有 GPU 能够以最少的跳数充当单个超级计算机。我们通过基于以太网的两层后端网络实现了这一目标,该网络支持具有 800 Gbps GPU 到 GPU 连接的大规模集群规模。依靠广泛的以太网生态系统和 SONiC(云中开放网络软件,这是我们自己的网络交换机操作系统)也有助于我们避免供应商锁定并管理成本,因为我们可以使用商用硬件而不是专有解决方案。

我们还与 OpenAI 和 NVIDIA 等合作伙伴合作,定义了突破性的自定义网络协议——多路径可靠连接 (MRC)——以实现对网络路由的更深入控制和优化。数据包修剪、数据包喷雾和高频遥测方面的改进是我们优化的人工智能网络的核心组成部分。这些技术共同提供先进的拥塞控制、快速检测和重传以及灵活的负载平衡,确保现代人工智能工作负载的超可靠、低延迟性能。

行星规模

即使有了这些创新,大型训练作业(现在以数万亿个参数来衡量)的计算需求也很快超出了单个设施的功率和空间限制。为了满足这些需求,我们构建了专用的 AI WAN 光网络来扩展 Fairwater 的纵向扩展和横向扩展网络。凭借我们的规模和数十年的超大规模专业知识,我们去年在美国交付了超过 120,000 英里的新光纤 - 在全国范围内扩大了 AI 网络的覆盖范围和可靠性。

借助这种高性能、高弹性的主干网,我们可以将不同代的超级计算机直接连接到一个人工智能超级工厂,其能力超出了跨地理位置的单个站点的能力。这使 AI 开发人员能够利用我们更广泛的 Azure AI 数据中心网络,根据站点内纵向扩展和横向扩展网络以及跨越 AI WAN 的大陆跨站点的需求对流量进行分段。

这与过去是一个有意义的背离,过去无论工作负载的要求如何,所有流量都必须通过横向扩展网络。它不仅为客户提供更细粒度的适合用途的网络,还有助于创建可替代性,以最大限度地提高我们基础设施的灵活性和利用率。

把它们放在一起

位于亚特兰大的新 Fairwater 站点代表了 Azure AI 基础设施的下一个飞跃,反映了我们运行全球最大的 AI 培训工作的经验。它结合了计算密度、可持续性和网络系统方面的突破性创新,可有效满足我们所看到的对计算能力的巨大需求。它还与其他人工智能数据中心和更广泛的 Azure 平台深度集成,形成世界上第一个人工智能超级工厂。这些创新共同提供了灵活、适合用途的基础设施,可以服务于全方位的现代人工智能工作负载,并帮助地球上的每个人和组织取得更多成就。对于我们的客户来说,这意味着将人工智能更轻松地集成到每个工作流程中,并能够创建以前无法实现的创新人工智能解决方案。

详细了解 Microsoft Azure 如何帮助您集成 AI 以简化和加强开发生命周期 这里

斯科特·格思里负责超大规模云计算解决方案和服务,包括 Azure、微软云计算平台、生成式人工智能解决方案、数据平台以及信息和网络安全。这些平台和服务帮助世界各地的组织解决紧迫的挑战并推动长期转型。�  标签:

人工智能天蓝色,,,

关于《无限规模:Azure AI 超级工厂背后的架构 - 微软官方博客》的评论


暂无评论

发表评论

摘要

作为 Fairwater 计划的一部分,微软将在佐治亚州亚特兰大推出一个新的 Azure AI 数据中心。该站点与现有数据中心集成,形成全球“人工智能超级工厂”,旨在满足对计算能力的高需求并推动人工智能模型智能边界。主要创新包括密集计算架构、先进的冷却系统、两层数据中心设计和优化的网络解决方案,所有这些都旨在最大限度地提高效率和可持续性。新基础设施还具有连接美国多个站点的 AI WAN 网络,可灵活分配不同的工作负载和高 GPU 利用率。这一发展体现了微软对支持大规模人工智能培训工作并为全球组织提供先进人工智能能力的承诺。

相关讨论