阿里云表示,通过新的池化系统,它将 Nvidia AI GPU 的使用量减少了 82%,输出增加了 9 倍,让 213 个 GPU 的性能相当于 1,192 个 GPU

2025-10-20 11:59:33 英文原文

作者:Luke JamesSocial Links NavigationContributor

Alibaba Cloud
(图片来源:阿里巴巴)

阿里云声称,在其 Model Studio 市场进行的为期数月的 Beta 测试中,其新的 Aegaeon 池化系统将服务大型语言模型所需的 Nvidia GPU 数量减少了 82%。结果发表在同行评审论文在首尔举行的 2025 年 ACM 操作系统研讨会 (SOSP) 上发表的论文表明,云提供商或许能够从现有芯片中获取更多的推理能力,特别是在中国这样的受限市场,在这些市场中,供应 Nvidia 最新的 H20仍然有限。

与追求模型质量或速度的训练时间突破不同,Aegaeon 是一种推理时间调度程序,旨在最大限度地提高具有突发或不可预测需求的许多模型的 GPU 利用率。Aegaeon 没有将一个加速器固定在一个模型上,而是在令牌级别虚拟化 GPU 访问,从而允许它在共享池中调度微小的工作片段。这意味着一台 H20 可以同时服务于多个不同的模型,与旧的无服务器系统相比,整个系统的“良好吞吐量”(有效产出的衡量标准)增加了九倍之多。

该论文称,该系统在生产环境中进行了几个月的测试,其中列出了来自北京大学和阿里巴巴基础设施部门的作者,其中包括首席技术官周景人。在此期间,支持数十个不同的 LLM(参数规模高达 720 亿个参数)所需的 GPU 数量从 1,192 个减少到仅 213 个。

虽然本文没有详细说明哪些模型对节省的贡献最大,但报告称南华早报 表示测试是使用 Nvidia 的 H20 进行的,H20 是几个加速器根据目前的美国出口管制,中国买家仍然可以合法购买。

这些节省的资金是否能转化为阿里巴巴的业务之外还有待观察。阿里云的论文没有具体说明 Beta 测试中使用的具体网络结构,但我们知道该公司提供自己的 eRDMA 弹性 RDMA 网络,并且拥有构建高度集成的 GPU 服务堆栈的记录,这表明结果可能取决于优化的垂直集成环境。

Google Preferred Source

跟随Google 新闻上的 Tom's Hardware, 或者将我们添加为首选来源,在您的源中获取我们的最新新闻、分析和评论。

卢克·詹姆斯 (Luke James) 是一名自由撰稿人和记者。虽然他的背景是法律,但他个人对所有科技领域都感兴趣,尤其是硬件和微电子,以及任何监管领域。 

关于《阿里云表示,通过新的池化系统,它将 Nvidia AI GPU 的使用量减少了 82%,输出增加了 9 倍,让 213 个 GPU 的性能相当于 1,192 个 GPU》的评论


暂无评论

发表评论

摘要

据报道,阿里云的新 Aegaeon 池化系统将大型语言模型所需的 Nvidia GPU 数量减少了 82%,这一点在其 Model Studio 市场的 Beta 测试中得到了证明。这一发现发表在首尔 2025 年 ACM 操作系统研讨会 (SOSP) 上的同行评审论文中,表明现有硬件的推理能力得到增强,这对于像中国这样 Nvidia H20 供应有限的市场尤其有利。与模型训练创新不同,Aegaeon 通过在令牌级别虚拟化 GPU 访问来优化需求波动的各种模型的 GPU 利用率。该技术使单个 H20 能够同时服务多个模型,与旧的无服务器系统相比,将系统范围的输出提高了九倍。经过几个月的测试,来自北京大学和阿里巴巴基础设施团队的作者(包括 CTO Jingren Zhou)参与其中,据报道,该系统将各种法学硕士(多达 720 亿个参数)的 GPU 使用量从 1,192 个 GPU 减少到仅 213 个。然而,由于依赖特定的网络结构和优化的环境,其在阿里巴巴生态系统之外的适用性仍然不确定。

相关新闻

相关讨论