阿里云声称,在其 Model Studio 市场进行的为期数月的 Beta 测试中,其新的 Aegaeon 池化系统将服务大型语言模型所需的 Nvidia GPU 数量减少了 82%。结果发表在同行评审论文在首尔举行的 2025 年 ACM 操作系统研讨会 (SOSP) 上发表的论文表明,云提供商或许能够从现有芯片中获取更多的推理能力,特别是在中国这样的受限市场,在这些市场中,供应 Nvidia 最新的 H20仍然有限。
与追求模型质量或速度的训练时间突破不同,Aegaeon 是一种推理时间调度程序,旨在最大限度地提高具有突发或不可预测需求的许多模型的 GPU 利用率。Aegaeon 没有将一个加速器固定在一个模型上,而是在令牌级别虚拟化 GPU 访问,从而允许它在共享池中调度微小的工作片段。这意味着一台 H20 可以同时服务于多个不同的模型,与旧的无服务器系统相比,整个系统的“良好吞吐量”(有效产出的衡量标准)增加了九倍之多。
该论文称,该系统在生产环境中进行了几个月的测试,其中列出了来自北京大学和阿里巴巴基础设施部门的作者,其中包括首席技术官周景人。在此期间,支持数十个不同的 LLM(参数规模高达 720 亿个参数)所需的 GPU 数量从 1,192 个减少到仅 213 个。
虽然本文没有详细说明哪些模型对节省的贡献最大,但报告称南华早报 表示测试是使用 Nvidia 的 H20 进行的,H20 是几个加速器根据目前的美国出口管制,中国买家仍然可以合法购买。
这些节省的资金是否能转化为阿里巴巴的业务之外还有待观察。阿里云的论文没有具体说明 Beta 测试中使用的具体网络结构,但我们知道该公司提供自己的 eRDMA 弹性 RDMA 网络,并且拥有构建高度集成的 GPU 服务堆栈的记录,这表明结果可能取决于优化的垂直集成环境。
跟随Google 新闻上的 Tom's Hardware, 或者将我们添加为首选来源,在您的源中获取我们的最新新闻、分析和评论。