OC

Knowledge OS
鹦鹉螺口语
Maia 200:专为推理而打造的 AI 加速器 - 微软官方博客
2026-01-26 16:17:17 · 英文原文

Maia 200:专为推理而打造的 AI 加速器 - 微软官方博客

作者:Scott Guthrie

今天,我们自豪地推出 Maia 200,这是一款突破性的推理加速器,旨在大幅提高 AI 代币生成的经济性。Maia 200 是一款 AI 推理引擎:一款基于 TSMC 3nm 工艺、具有原生 FP8/FP4 张量核心的加速器、重新设计的内存系统,具有 7 TB/s 的 216GB HBM3e 和 272MB 片上内存SRAM,加上数据移动引擎,可保持大规模模型的供给、快速和高利用率。这使得 Maia 200 成为所有超大规模厂商中性能最强的第一方芯片,其 FP4 性能是第三代 Amazon Trainium 的三倍,FP8 性能高于 Google 第七代 TPU。Maia 200 也是 Microsoft 部署过的最高效的推理系统,其性价比比我们当今最新一代硬件高出 30%。

Maia 200 是我们异构 AI 基础设施的一部分,将服务于多种模型,包括 OpenAI 的最新 GPT-5.2 模型,为 Microsoft Foundry 和 Microsoft 365 Copilot 带来性价比优势。微软超级智能团队将使用 Maia 200 进行合成数据生成和强化学习,以改进下一代内部模型。对于合成数据管道用例,Maia 200 的独特设计有助于加快生成和过滤高质量、特定领域数据的速度,为下游训练提供更新鲜、更有针对性的信号。

Maia 200 部署在爱荷华州得梅因附近的美国中部数据中心区域,下一个和未来的区域将部署在亚利桑那州凤凰城附近的美国西部 3 数据中心区域。Maia 200 与 Azure 无缝集成,我们正在预览 Maia SDK,其中包含一整套用于构建和优化 Maia 200 模型的工具。它包含一整套功能,包括 PyTorch 集成、Triton 编译器和优化的内核库,以及对 Maia 低级编程语言的访问。这使开发人员可以在需要时进行细粒度控制,同时实现跨异构硬件加速器的轻松模型移植。

Youtube 视频

专为人工智能推理而设计

每个 Maia 200 芯片均采用台积电尖端的 3 纳米工艺制造,包含超过 1,400 亿个晶体管,专为大规模人工智能工作负载而定制,同时还提供高效的性价比。Maia 200 在这两个方面都表现出色。它专为使用低精度计算的最新型号而设计,每个 Maia 200 芯片可提供超过 10 petaFLOPS 的 4 位精度 (FP4) 和超过 5 petaFLOPS 的 8 位 (FP8) 性能,所有这些都在 750W SoC TDP 范围内。实际上,Maia 200 可以轻松运行当今最大的模型,并为未来更大的模型提供充足的空间。

A close-up of the Maia 200 AI accelerator chip.

至关重要的是,FLOPS 并不是更快 AI 的唯一要素。提供数据同样重要。Maia 200 通过重新设计的内存子系统解决了这个瓶颈。Maia 200 内存子系统以窄精度数据类型、专用 DMA 引擎、片上 SRAM 和专用 NoC 结构为中心,用于高带宽数据移动,从而提高令牌吞吐量。

A table with the title “Industry-leading capability” shows peak specifications for Azure Maia 200, AWS Trainium 3 and Google TPU v7.

优化的人工智能系统

在系统层面,Maia 200 引入了一种基于标准以太网的新型两层扩展网络设计。定制传输层和紧密集成的 NIC 可释放性能、强大的可靠性和显着的成本优势,而无需依赖专有结构。

每个加速器都会暴露:

  • 2.8 TB/s 双向专用扩展带宽
  • 跨多达 6,144 个加速器的集群进行可预测的高性能集体操作

该架构为密集推理集群提供可扩展的性能,同时降低 Azure 全球机群的功耗和总体 TCO。

在每个托盘内,四个 Maia 加速器通过直接、非交换链路完全连接,保持本地高带宽通信,以实现最佳推理效率。使用 Maia AI 传输协议将相同的通信协议用于机架内和机架间网络,从而能够以最少的网络跳数跨节点、机架和加速器集群进行无缝扩展。这种统一的结构简化了编程,提高了工作负载灵活性并减少了闲置容量,同时在云规模上保持一致的性能和成本效率。

A top-down view of the Maia 200 server blade.

云原生开发方法

Microsoft 芯片开发计划的核心原则是在最终芯片可用之前尽可能多地验证端到端系统。

复杂的硅前环境从最初阶段就指导了 Maia 200 架构,以高保真度对 LLM 的计算和通信模式进行建模。这种早期的共同开发环境使我们能够早在第一个芯片出现之前就将芯片、网络和系统软件作为一个统一的整体进行优化。

我们还设计了 Maia 200,从一开始就在数据中心实现快速、无缝的可用性,对一些最复杂的系统元素进行早期验证,包括后端网络和我们的第二代闭环液体冷却热交换器单元。与 Azure 控制平面的本机集成可在芯片和机架级别提供安全、遥测、诊断和管理功能,最大限度地提高生产关键型 AI 工作负载的可靠性和正常运行时间。

这些投资的结果是,人工智能模型在第一个封装部件到达后几天内就可以在 Maia 200 芯片上运行。从第一个芯片到第一个数据中心机架部署的时间缩短到了同类人工智能基础设施项目的一半以下。这种从芯片到软件再到数据中心的端到端方法可以直接转化为更高的利用率、更快的生产时间以及在云规模上每美元和每瓦性能的持续改进。

A view of the Maia 200 rack and the HXU cooling unit.

注册 Maia SDK 预览版

大规模人工智能时代才刚刚开始,基础设施将定义什么是可能的。我们的 Maia AI 加速器计划旨在支持多代。当我们在全球基础设施中部署 Maia 200 时,我们已经在为未来几代人进行设计,并期望每一代人都将不断为可能的事情设定新的基准,并为最重要的人工智能工作负载提供更好的性能和效率。

今天,我们邀请开发人员、人工智能初创公司和学者开始使用新的 Maia 200 软件开发套件 (SDK) 探索早期模型和工作负载优化。该 SDK 包括 Triton 编译器、对 PyTorch 的支持、NPL 中的低级编程以及 Maia 模拟器和成本计算器,以在代码生命周期的早期优化效率。注册预览这里

在我们的网站上获取更多照片、视频和资源玛雅 200 站点阅读更多详情

Scott Guthrie 负责超大规模云计算解决方案和服务,包括 Azure、微软云计算平台、生成式人工智能解决方案、数据平台以及信息和网络安全。这些平台和服务帮助世界各地的组织解决紧迫的挑战并推动长期转型。

标签:,,

关于《Maia 200:专为推理而打造的 AI 加速器 - 微软官方博客》的评论

暂无评论

发表评论

摘要

微软推出了 Maia 200,这是一款先进的推理加速器,旨在提高 AI 代币生成的经济性。它采用台积电 3nm 工艺打造,具有原生 FP8/FP4 张量核心、216GB HBM3e 内存和 272MB SRAM,与 Amazon Trainium 和 Google TPU 相比,提供卓越的性能。Maia 200 部署在爱荷华州得梅因和亚利桑那州菲尼克斯附近的数据中心,与 Azure 无缝集成,并包含一个预览 SDK,供开发人员优化模型。该系统针对效率和可扩展性进行了优化,支持跨 Microsoft 基础设施的大型人工智能工作负载。