NVIDIA 以太网加速由 xAI 构建的世界上最大的 AI 超级计算机

2024-10-28 15:06:04 英文原文

NVIDIA 今天宣布,位于田纳西州孟菲斯的 xAI Colossus 超级计算机集群由 100,000 个 NVIDIA Hopper GPU 组成,通过使用 NVIDIA频谱-X以太网网络平台,旨在使用基于标准的以太网为其远程直接内存访问 (RDMA) 网络为多租户、超大规模人工智能工厂提供卓越的性能。

Colossus 是世界上最大的 AI 超级计算机,用于训练 xAI 的 Grok 系列大型语言模型,并为 X Premium 订阅者提供聊天机器人功能。xAI 正在将 Colossus 的规模扩大一倍,总数达到 200,000NVIDIA 料斗GPU。

xAI 和 NVIDIA 仅用了 122 天就建成了支持设施和最先进的超级计算机,而这种规模的系统通常需要数月甚至数年的时间。从第一个架子滚到地板上到开始训练,历时19天。

在训练极其庞大的 Grok 模型时,Colossus 实现了前所未有的网络性能。在网络结构的所有三层中,系统因流冲突而出现了零应用延迟降级或数据包丢失。通过 Spectrum-X 拥塞控制,它保持了 95% 的数据吞吐量。

标准以太网无法大规模实现这种性能水平,标准以太网会产生数千次流冲突,同时仅提供 60% 的数据吞吐量。

“人工智能正在变得至关重要,需要更高的性能、安全性、可扩展性和成本效率,”NVIDIA 网络高级副总裁 Gilad Shainer 表示。– NVIDIA Spectrum-X 以太网网络平台旨在为 xAI 等创新者提供更快的 AI 工作负载处理、分析和执行速度,从而加快 AI 解决方案的开发、部署和上市时间。 –

“Colossus 是世界上最强大的培训系统,”埃隆·马斯克 (Elon Musk) 在X。– xAI 团队、NVIDIA 以及我们众多合作伙伴/供应商的出色工作。 –

“xAI 建造了世界上最大、最强大的超级计算机,”xAI 发言人表示。–NVIDIA 的 Hopper GPU 和 Spectrum-X 使我们能够突破大规模训练 AI 模型的界限,创建基于以太网标准的超加速和优化的 AI 工厂。 –

Spectrum-X 平台的核心是频谱SN5600以太网交换机,支持高达 800Gb/s 的端口速度,基于 Spectrum-4 交换机 ASIC。xAI 选择将 Spectrum-X SN5600 交换机与NVIDIA BlueField-3®超级NIC以获得前所未有的性能。

用于 AI 的 Spectrum-X 以太网网络带来了先进的功能,可提供高效且可扩展的带宽,并具有低延迟和短尾延迟,这些功能以前是 InfiniBand 独有的。这些功能包括采用 NVIDIA 直接数据放置技术的自适应路由、拥塞控制,以及增强的 AI 结构可见性和性能隔离——这些都是多租户生成 AI 云和大型企业环境的关键要求。

关于《NVIDIA 以太网加速由 xAI 构建的世界上最大的 AI 超级计算机》的评论


暂无评论

发表评论

摘要

NVIDIA 宣布在田纳西州孟菲斯推出全球最大的 AI 超级计算机 Colossus,配备 10 万个 NVIDIA Hopper GPU,并由 NVIDIA Spectrum-X 以太网网络平台提供支持。该系统用于训练 xAI 的 Grok 系列大型语言模型,GPU 数量将增加一倍,达到 200,000 个。Colossus 仅用了 122 天的时间就实现了前所未有的网络性能,应用程序延迟降低或数据包丢失为零,并且由于 Spectrum-X 拥塞控制而保持了 95% 的数据吞吐量。标准以太网无法达到这种性能水平,这通常会导致严重的流冲突和较低的数据吞吐量。该系统的高级功能,包括自适应路由和增强的 AI 结构可见性,专门满足多租户生成 AI 云和大型企业环境的需求。