英语轻松读发新版了,欢迎下载、更新

AMD Instinct、云硅争夺 Nvidia 的一块蛋糕

2024-12-23 17:29:00 英文原文

根据 Omdia 的估计,到 2024 年,Nvidia 将在人工智能领域占据主导地位,其 Hopper GPU 的出货量将在其 12 个最大客户中增长两倍以上,达到 200 万以上。

尽管英伟达仍然是人工智能基础设施巨头,但它面临着来自竞争对手 AMD 的更激烈的竞争。在其 Instinct MI300 系列 GPU 的早期采用者中,AMD 正在迅速获得份额。

Omdia 估计,微软在 2024 年购买了大约 581,000 个 GPU,是全球云或超大规模客户中规模最大的。其中,六分之一是由 AMD 制造的。

根据 Omdia 的调查结果,Meta 是迄今为止推出仅一年的加速器最热心的采用者 — AMD 占 GPU 出货量的 43%,为 173,000 颗,而 Nvidia 为 224,000 颗。与此同时,在 Oracle,AMD 占该数据库巨头 163,000 个 GPU 出货量的 23%。

Nvidia remained the dominant supplier of AI hardware in 2024. Credit: Omdia

2024 年,Nvidia 仍是人工智能硬件的主要供应商。图片来源:Omdia — 点击放大

尽管微软和 Meta 等主要客户的份额不断增长,但 AMD 在更广泛的 GPU 市场上的份额仍然相对较小,仅次于 Nvidia。

Omdia 估计跟踪了四家供应商(Microsoft、Meta、Oracle 和 GPU 位库 TensorWave)的 MI300X 出货量,总计 327,000 台。

AMD's MI300X shipments remained a fraction of Nvidia's in 2024. Credit: Omdia

2024 年,AMD 的 MI300X 出货量仍只是 Nvidia 的一小部分。图片来源:Omdia — 点击放大

AMD 的增长同样引人注目,因为其 MI300 系列加速器现在才上市一年。在此之前,AMD 的 GPU 主要用于更传统的高性能计算应用,例如橡树岭国家实验室 (ORNL) 的 1.35 exaFLOPS Frontier 超级计算机。

Omdia 云和数据中心研究总监 Vladimir Galabov 表示:“他们去年成功地通过 HPC 场景证明了 GPU 的有效性,我认为这很有帮助。”登记册。“我确实认为人们迫切需要 Nvidia 的替代品。”

为什么选择AMD?

很难说这种渴望在多大程度上是由 Nvidia 硬件供应有限造成的,但至少在纸面上,AMD 的 MI300X 加速器提供了许多优势。一年前推出的 MI300X声称与久负盛名的 H100 相比,AI 工作负载的浮点性能提高了 1.3 倍,内存带宽提高了 60%,容量提高了 2.4 倍。

后两点使得该部分对于推理工作负载特别有吸引力,其性能通常取决于内存的数量和速度,而不是 GPU 可以运行的 FLOPS 数量。

一般来说,当今大多数 AI 模型都是以 16 位精度进行训练的,这意味着为了运行它们,每 10 亿个参数需要大约 2 GB 的 vRAM。每个 GPU 具有 192 GB HBM3,单个服务器拥有 1.5 TB vRAM。这意味着大型模型,例如 Meta 的 Llama 3.1 405B 前沿模型,可以在单个节点上运行。另一方面,配备类似设备的 H100 节点缺乏以全分辨率运行模型所需的内存。141 GB H200 则没有同样的限制,但容量并不是 MI300X 唯一的优势。

MI300X 拥有 5.3 TBps 的内存带宽,而 H100 为 3.3 TBps,141 GB H200 为 4.8 TBps。总之,这意味着 MI300X 理论上应该能够比 Nvidia 的 Hopper GPU 更快地为更大的模型提供服务。

即使Nvidia的Blackwell刚刚开始接触客户,在性能和内存带宽方面领先,AMD的新MI325X仍然保持着每GPU 256 GB的容量优势。其更强大的 MI355X 计划于明年年底发布,将把容量提升至 288 GB。

因此,微软和 Meta 都在部署测量数千亿甚至数万亿参数的大型前沿模型,因此倾向于 AMD 的加速器也就不足为奇了。

Galabov 指出,这一点已经反映在 AMD 的指导中,该指导逐季持续小幅上升。截至第三季度,AMD 目前预计 Instinct 在 2024 财年将带来 50 亿美元的收入。

进入新的一年,Galabov 相信 AMD 有机会获得更多份额。“AMD 执行得很好。它与客户沟通良好,并且善于透明地谈论自己的优势和劣势,”他说。

一个潜在的驱动因素是 GPU 位仓的出现,例如 CoreWeave,每年部署数以万计的加速器。Galabov 表示:“其中一些公司将有意尝试围绕 Nvidia 的替代方案建立一种商业模式。”他指出 TensorWave 就是这样的一个例子。

定制硅取得了长足的进步

蚕食英伟达帝国的不仅仅是AMD。与此同时,云和超大规模企业正在购买大量 GPU,许多企业正在部署自己的定制 AI 芯片。

Cloud providers deployed massive quantities of custom AI silicon in 2024, but it's important to remember not all of these parts are designed for gen AI. Credit Omdia

云提供商将在 2024 年部署大量定制 AI 芯片,但重要的是要记住,并非所有这些部件都是为 GenAI 设计的。Credit Omdia — 点击放大

Omdia 估计 Meta 定制 MTIA 加速器的出货量,我们看着更详细地说,今年早些时候,该芯片数量将在 2024 年达到 150 万颗,而亚马逊则订购了 90 万颗 Inferentia 芯片。

这是否对英伟达构成挑战在很大程度上取决于工作量。这是因为这些部分旨在运行更传统的机器学习任务,例如用于将广告与用户匹配以及将产品与买家匹配的推荐系统。

虽然 Inferentia 和 MTIA 的设计可能没有考虑到法学硕士,但 Google 的 TPU 确实曾经并且已经被用来训练这家搜索巨头的许多语言模型,包括其专有的 Gemini 和开放的 Gemma 模型。

据 Omdia 统计,谷歌今年订购了约 100 万个 TPU v5e 和 48 万个 TPU v5p 加速器。

除了 Inferentia 之外,AWS 还拥有 Trainium 芯片,尽管其名称如此,但它已针对训练和推理工作负载进行了重新调整。Omdia 预计,到 2024 年,亚马逊将订购约 366,000 个此类零部件。这与其计划相符雷尼尔计划,该公司将于 2025 年为模型构建商 Anthropic 提供“数十万”个 Trainium2 加速器。

最后是微软的 MAIA 部分,它是第一个戏弄就在 AMD 推出 MI300X 之前不久。与 Trainium 类似,这些部件针对推理和训练进行了调整,微软作为 OpenAI 的主要硬件合作伙伴和自身的模型构建者显然在这方面做了相当多的工作。Omdia 认为,微软在 2024 年订购了大约 198,000 个此类部件。

人工智能市场比硬件更大

过去两年,英伟达收入大幅增长,这自然引起了人们对人工智能背后基础设施的关注,但这只是更大难题的一小部分。

Omdia 预计,随着 AMD、英特尔和云服务提供商推出替代硬件和服务,Nvidia 在明年将难以扩大其在 AI 服务器市场的份额。

“如果我们从英特尔那里学到了什么,一旦份额达到 90% 以上,就不可能继续增长。人们会立即寻找替代方案,”加拉博夫说。

然而,Galabov 怀疑 Nvidia 不会在竞争日益激烈的市场中争夺份额,而是将重点放在通过使技术更容易获得来扩大整个潜在市场。

引入 Nvidia 推理微服务 (NIM)、容器化模型设计的像拼图一样构建复杂的人工智能系统,只是这一支点的一个例子。

“这是史蒂夫·乔布斯的战略。让智能手机成功的是应用程序商店。因为它使技术易于使用,”加拉博夫在谈到 NIM 时说道。“人工智能也是如此;创建一个应用程序商店,人们就会下载该应用程序并使用它。”

话虽如此,英伟达仍然立足于硬件。云提供商、超大规模提供商和 GPU 位仓已经宣布推出基于 Nvidia 强大的新型 Blackwell 加速器的大规模集群,该加速器远远领先于 AMD 或英特尔目前提供的任何产品,至少在性能方面如此。

与此同时,英伟达加快了其产品路线图,以支持每年推出新芯片的节奏,以保持其领先地位。看起来,虽然英伟达将继续面临来自竞争对手的激烈竞争,但它不会很快失去桂冠。®

关于《AMD Instinct、云硅争夺 Nvidia 的一块蛋糕》的评论


暂无评论

发表评论

摘要

Nvidia 在 2024 年保持了人工智能硬件市场的主导地位,但面临着来自 AMD、英特尔和部署定制芯片的云服务提供商日益激烈的竞争。AMD 预计将通过 Instinct 销售带动 50 亿美元的收入。Meta 的 MTIA 和 Amazon 的 Inferentia 等定制芯片也很重要,尽管主要用于传统的 ML 任务。Nvidia 专注于通过 NIM 等技术扩大市场准入,同时每年加快其产品路线图。尽管存在竞争,但由于其 Blackwell 加速器提供的性能规模,Nvidia 仍然处于领先地位。Omdia 预计市场份额增长将面临挑战,但也看到了扩张和创新的机遇。