作者:Dashveenjit Kaur
当AI数据中心耗尽空间时,他们将面临昂贵的困境:建立更大的设施或找到使多个位置无缝合作的方法。NVIDIA的最新Spectrum-XGS以太网技术有望通过将跨距离的AI数据中心连接到公司所谓的Giga级AI SuperFortace,可以解决这一挑战。
宣布``在2025年热芯片之前,这项网络创新代表了公司对日益增长的问题的答案,该问题迫使AI行业重新考虑计算能力的分配方式。
随着人工智能模型变得更加复杂和苛刻,它们需要巨大的计算能力,这些计算能力通常超过任何单个设施所能提供的。传统的AI数据中心面临功率能力,物理空间和冷却能力的限制。
当公司需要更多的处理能力时,通常必须建立全新的设施。
这些问题使AI系统难以在多个站点上有效分发复杂的计算。
Spectrum-XGS以太网介绍了NVIDIA术语“尺度 - 雅的能力”的第三种AI计算方法,该方法可以补充现有的规模扩大(使单个加工者更强大)和扩大规模(在同一位置中添加更多的处理器)策略。
该技术集成到NVIDIA的现有Spectrum-X以太网平台中,并包含了几种关键创新:
根据NVIDIA的公告,这些改进几乎可以将NVIDIA Collective Communications库的性能两倍,该库处理多个图形处理单元(GPU)和计算节点之间的通信。
CoreWeave是一家专门从事GPU加速计算的云基础设施公司,计划成为Spectrum-XGS Ethernet的首次采用者之一。
CoreWeave S Cofounder兼首席技术官Peter Salanki说,使用NVIDIA Spectrum-XGS,我们可以将数据中心连接到一个统一的超级计算机中,使我们的客户访问GIGA级的AI,这将加速每个行业的突破性。”
该部署将作为该技术在现实情况下是否可以兑现其承诺的实用测试案例。
该公告是在NVIDIA的一系列以网络为重点的版本之后,包括原始Spectrum-X平台和Quantum-X Silicon Photonics Switches。这种模式表明,该公司将网络基础架构视为AI开发中的关键瓶颈。
NVIDIA的创始人兼首席执行官Jensen Huang在新闻稿中说:“ AI工业革命在这里,巨大的AI工厂是必不可少的基础设施。尽管黄的特征反映了NVIDIA的营销观点,但在整个AI行业中,他描述了对更多计算能力的需求。
该技术可能会影响AI数据中心的计划和操作。公司可以在维持绩效水平的同时,在多个较小的位置上分配大规模的单一设施,而是可以在当地电网和房地产市场上构成损害。
但是,几个因素可能会影响光谱-XGS以太网的实际有效性。长距离的网络性能仍然受到物理限制的影响,包括光速和位置之间基础互联网基础设施的质量。该技术的成功将在很大程度上取决于它在这些约束中的运作能力。
此外,管理分布式AI数据中心的复杂性超出网络扩展,包括在不同司法管辖区挑战的数据同步,容忍度和法规依从性,仅网络改进就无法解决。
NVIDIA指出,Spectrum-XGS以太网现在可以作为Spectrum-X平台的一部分,尽管已披露了定价和特定的部署时间表。与替代方法相比,该技术的采用率可能取决于成本效益,例如构建较大的单一站点设施或使用现有的网络解决方案。
消费者和企业的底线是:如果NVIDIA的技术正如承诺的,我们可以看到更快的AI服务,更强大的应用程序,并且随着公司通过分布式计算提高效率而可能会降低成本。但是,如果该技术未能在现实世界中交付,AI公司将继续面临昂贵的选择,在建立越来越多的单个设施或接受绩效妥协之间。
CoreWeave即将到来的部署将成为第一个重大测试,即在跨距离之间连接AI数据中心是否可以真正在大规模上工作。结果可能会决定其他公司是否效仿还是坚持传统方法。就目前而言,NVIDIA提出了雄心勃勃的愿景,但是AI行业仍在等待看看现实是否与诺言相匹配。
参见:新的NVIDIA Blackwell芯片中国可能会超过H20模型
想从行业领导者那里了解有关AI和大数据的更多信息吗?查看AI和大数据博览会在阿姆斯特丹,加利福尼亚和伦敦举行。综合事件与其他领先活动共同分居,包括智能自动化会议,,,,块,,,,数字转换周, 和网络安全和云博览会。
探索由Techforge提供支持的其他即将举行的企业技术活动和网络研讨会这里。