阿里云表示，通过新的池化系统，它将 Nvidia AI GPU 的使用量减少了 82%，输出增加了 9 倍，让 213 个 GPU 的性能相当于 1,192 个 GPU

（图片来源：阿里巴巴）

阿里云声称，在其 Model Studio 市场进行的为期数月的 Beta 测试中，其新的 Aegaeon 池化系统将服务大型语言模型所需的 Nvidia GPU 数量减少了 82%。结果发表在同行评审论文在首尔举行的 2025 年 ACM 操作系统研讨会 (SOSP) 上发表的论文表明，云提供商或许能够从现有芯片中获取更多的推理能力，特别是在中国这样的受限市场，在这些市场中，供应 Nvidia 最新的 H20仍然有限。

与追求模型质量或速度的训练时间突破不同，Aegaeon 是一种推理时间调度程序，旨在最大限度地提高具有突发或不可预测需求的许多模型的 GPU 利用率。Aegaeon 没有将一个加速器固定在一个模型上，而是在令牌级别虚拟化 GPU 访问，从而允许它在共享池中调度微小的工作片段。这意味着一台 H20 可以同时服务于多个不同的模型，与旧的无服务器系统相比，整个系统的“良好吞吐量”（有效产出的衡量标准）增加了九倍之多。

该论文称，该系统在生产环境中进行了几个月的测试，其中列出了来自北京大学和阿里巴巴基础设施部门的作者，其中包括首席技术官周景人。在此期间，支持数十个不同的 LLM（参数规模高达 720 亿个参数）所需的 GPU 数量从 1,192 个减少到仅 213 个。

虽然本文没有详细说明哪些模型对节省的贡献最大，但报告称南华早报 表示测试是使用 Nvidia 的 H20 进行的，H20 是几个加速器根据目前的美国出口管制，中国买家仍然可以合法购买。

这些节省的资金是否能转化为阿里巴巴的业务之外还有待观察。阿里云的论文没有具体说明 Beta 测试中使用的具体网络结构，但我们知道该公司提供自己的 eRDMA 弹性 RDMA 网络，并且拥有构建高度集成的 GPU 服务堆栈的记录，这表明结果可能取决于优化的垂直集成环境。

跟随Google 新闻上的 Tom's Hardware，或者将我们添加为首选来源，在您的源中获取我们的最新新闻、分析和评论。

卢克·詹姆斯 (Luke James) 是一名自由撰稿人和记者。虽然他的背景是法律，但他个人对所有科技领域都感兴趣，尤其是硬件和微电子，以及任何监管领域。

阿里云表示，通过新的池化系统，它将 Nvidia AI GPU 的使用量减少了 82%，输出增加了 9 倍，让 213 个 GPU 的性能相当于 1,192 个 GPU

关于《阿里云表示，通过新的池化系统，它将 Nvidia AI GPU 的使用量减少了 82%，输出增加了 9 倍，让 213 个 GPU 的性能相当于 1,192 个 GPU》的评论

发表评论

摘要

相关新闻

相关讨论