NVIDIA 今天宣布,位于田纳西州孟菲斯的 xAI Colossus 超级计算机集群由 100,000 个 NVIDIA Hopper GPU 组成,通过使用 NVIDIA频谱-X以太网网络平台,旨在使用基于标准的以太网为其远程直接内存访问 (RDMA) 网络为多租户、超大规模人工智能工厂提供卓越的性能。
Colossus 是世界上最大的 AI 超级计算机,用于训练 xAI 的 Grok 系列大型语言模型,并为 X Premium 订阅者提供聊天机器人功能。xAI 正在将 Colossus 的规模扩大一倍,总数达到 200,000NVIDIA 料斗GPU。
xAI 和 NVIDIA 仅用了 122 天就建成了支持设施和最先进的超级计算机,而这种规模的系统通常需要数月甚至数年的时间。从第一个架子滚到地板上到开始训练,历时19天。
在训练极其庞大的 Grok 模型时,Colossus 实现了前所未有的网络性能。在网络结构的所有三层中,系统因流冲突而出现了零应用延迟降级或数据包丢失。通过 Spectrum-X 拥塞控制,它保持了 95% 的数据吞吐量。
标准以太网无法大规模实现这种性能水平,标准以太网会产生数千次流冲突,同时仅提供 60% 的数据吞吐量。
“人工智能正在变得至关重要,需要更高的性能、安全性、可扩展性和成本效率,”NVIDIA 网络高级副总裁 Gilad Shainer 表示。– NVIDIA Spectrum-X 以太网网络平台旨在为 xAI 等创新者提供更快的 AI 工作负载处理、分析和执行速度,从而加快 AI 解决方案的开发、部署和上市时间。 –
“Colossus 是世界上最强大的培训系统,”埃隆·马斯克 (Elon Musk) 在X。– xAI 团队、NVIDIA 以及我们众多合作伙伴/供应商的出色工作。 –
“xAI 建造了世界上最大、最强大的超级计算机,”xAI 发言人表示。–NVIDIA 的 Hopper GPU 和 Spectrum-X 使我们能够突破大规模训练 AI 模型的界限,创建基于以太网标准的超加速和优化的 AI 工厂。 –
Spectrum-X 平台的核心是频谱SN5600以太网交换机,支持高达 800Gb/s 的端口速度,基于 Spectrum-4 交换机 ASIC。xAI 选择将 Spectrum-X SN5600 交换机与NVIDIA BlueField-3®超级NIC以获得前所未有的性能。
用于 AI 的 Spectrum-X 以太网网络带来了先进的功能,可提供高效且可扩展的带宽,并具有低延迟和短尾延迟,这些功能以前是 InfiniBand 独有的。这些功能包括采用 NVIDIA 直接数据放置技术的自适应路由、拥塞控制,以及增强的 AI 结构可见性和性能隔离——这些都是多租户生成 AI 云和大型企业环境的关键要求。