埃隆·马斯克 (Elon Musk) 的 xAI 推出了 Colossus,这是世界上最大的人工智能超级计算机,位于田纳西州孟菲斯。Colossus 拥有 100,000 个 NVIDIA Hopper GPU,并计划扩展到 200,000 个,在 AI 基础设施和功能方面实现了巨大飞跃。这一令人印象深刻的计算基础设施是与 NVIDIA 合作构建的,无疑将影响 xAI 在人工智能军备竞赛中的地位。
Colossus 旨在训练 xAI 的 Grok 系列大型语言模型,这些模型被集成为 X Premium 订阅者的聊天机器人功能。这个庞大的集群依赖于 NVIDIA 的 Spectrum-X 以太网网络平台,该平台提供了高效训练如此庞大的 AI 模型所需的高速、低延迟环境。与传统网络设置不同,Spectrum-X 实现了 95% 的数据吞吐量,几乎为零丢包,解决了超大规模人工智能工厂中常见的性能瓶颈。
服务家庭获得独家使用权拍摄 Colossus 设施,提供世界上最大的人工智能超级计算机的罕见内部观察。虽然他们的视频由 Supermicro 赞助,并且专门关注其液体冷却技术并需要 xAI 的批准,但它提供了对现代 AI 超级计算的物理规模和工程复杂性的宝贵见解。
Colossus 的建造还展示了与 Supermicro 的合作,使用了他们最先进的液冷机架。每个机架配备 8 台服务器,配备 8 个 NVIDIA H100 GPU,在迷你集群中创建 512 个 GPU 组,专为提高效率和高性能而设计。Supermicro 的液体冷却系统不是事后添加的,而是硬件的一个组成部分,专门用于管理训练高级人工智能模型的高热量和电力需求。ServeTheHome 罕见地参观了该设施,他指出,这种专门设计的液体冷却技术是 Colossus 运行效率和可维护性的主要贡献者。
Spectrum-X 网络平台是 Colossus 独一无二的另一个关键方面。标准以太网面临流量冲突和大规模吞吐量下降的问题,但 Spectrum-X 通过自适应路由、增强的 AI 结构可见性和拥塞控制等功能克服了这些挑战。这种先进的网络设置与 NVIDIA 的 BlueField-3 SuperNIC 相结合,可确保 Colossus 保持对训练大规模 AI 模型至关重要的性能水平。据 NVIDIA 称,即使在人工智能训练的苛刻条件下,该系统也能实现零延迟降级。
对于马斯克来说,xAI 和 Colossus 背后的野心不仅仅是硬件,而是建立一个突破人工智能能力界限的基础。位于孟菲斯的工厂旨在成为扩展人工智能模型并以前所未有的速度让先进系统上线的试验场。随着计划扩展到 200,000 个 GPU,Colossus 不仅将继续保持最大的 AI 超级计算机的地位,而且随着 xAI 在生成型 AI 领域的不断创新,它也将成为 xAI 的重要资产。
NVIDIA 在这个项目中的作用也至关重要。他们的 Hopper GPU 与 Spectrum-X 网络平台一起,使 xAI 能够大规模优化其模型训练。NVIDIA 强调,Colossus 凭借其领先的技术,代表了世界上最强大的训练系统。此次合作体现了人工智能创新者与硬件专家密切合作解决最复杂的技术挑战时可以实现的目标。
埃隆·马斯克 (Elon Musk) 对 Colossus 的愿景不仅仅局限于原始处理能力。超级计算机的效率和可扩展性展示了一条从头开始专门构建的人工智能基础设施的前进道路,类似于设计电动汽车而不是改装汽油动力汽车。这种方法使 xAI 能够优化系统的每个部分,从电源管理到冷却和网络,使 Colossus 成为人工智能基础设施未来可以实现的目标的展示。
随着人工智能在从医疗保健到自主系统等行业中越来越重要,像 Colossus 这样的可扩展、高性能基础设施的重要性怎么强调也不为过。从构建和部署这台超级计算机中吸取的经验教训可能会为整个行业树立新的标准,使孟菲斯成为全球人工智能竞赛的关键中心。凭借 Musk 的宏伟抱负和 NVIDIA 的支持,xAI 的 Colossus 不仅是一个破纪录的装置,而且以前所未有的规模展示了 AI 模型训练的未来。
Chris McKay 是 Maginative 的创始人兼主编。他在人工智能素养和战略人工智能采用方面的思想领导力得到了顶级学术机构、媒体和全球品牌的认可。