OC

Knowledge OS
鹦鹉螺口语
Nvidia 刚刚承认通用 GPU 时代即将结束
2026-01-03 01:16:42 · 英文原文

Nvidia 刚刚承认通用 GPU 时代即将结束

Nvidia 与 Groq 达成的 200 亿美元战略许可协议是围绕未来 AI 堆栈的四战线争夺中的首批明确举措之一。到 2026 年,这场斗争对于企业建设者来说将变得显而易见。

对于我们每天交谈的技术决策者(构建人工智能应用程序和驱动这些应用程序的数据管道的人员)来说,这笔交易是一个信号,表明通用 GPU 作为默认人工智能推理答案的时代正在结束。

我们正在进入的时代分类推理架构,其中硅本身被分为两种不同的类型,以适应需要大量背景和即时推理的世界。

为什么推理将 GPU 架构一分为二

了解为什么英伟达首席执行官黄仁勋放弃了三分之一的报告称现金储备达 600 亿美元在许可协议中,你必须考虑他的公司所面临的生存威胁——据报道92%市场占有率. . . 

该行业在 2025 年底达到了一个转折点:推理(经过训练的模型实际运行的阶段)首次出现数据中心总收入超过了培训据德勤称。在这个新的“推理翻转”中,指标发生了变化。虽然准确性仍然是基线,但现在的战斗正在围绕延迟和维持自主代理“状态”的能力进行。

这场战斗有四个方面,每个方面都指向相同的结论:推理工作负载的碎片化速度快于 GPU 的概括速度。

1. 将 GPU 一分为二:预填充与解码

Gavin Baker,Groq 的投资者(因此有偏见,但对架构也异常精通),总结Groq 处理的核心驱动力很清晰:“推理被分解为预填充和解码。”

预填充解码是两个不同的阶段:

  • 预填充阶段:将此视为用户的“提示”阶段。该模型必须摄取大量数据(无论是 100,000 行代码库还是一小时的视频)并计算上下文理解。这是“计算限制”的,需要大规模矩阵乘法,而 Nvidia 的 GPU 历来都很擅长。

  • 生成(解码)阶段:这就是实际的逐个令牌“生成”。一旦接收到提示,模型一次生成一个单词(或令牌),将每个单词反馈到系统中以预测下一个单词。这就是“内存带宽限制”。如果数据不能足够快地从内存移动到处理器,无论 GPU 多么强大,模型都会卡顿。(这就是 Nvidia 的弱点,也是 Groq 的特殊语言处理单元的地方)(LPU)及其相关的 SRAM 内存,稍后会详细介绍。)

英伟达有宣布即将推出维拉·鲁宾芯片家族它的架构是专门为处理这种分裂而设计的。的鲁宾CPX该系列的组件是指定的“预填充”主力,针对 100 万个或更多令牌的大规模上下文窗口进行了优化。为了以经济实惠的方式应对这种规模,它放弃了令人眼花缭乱的费用高带宽内存 (HBM)– Nvidia 当前的黄金标准内存位于 GPU 芯片旁边 – 而是使用 128GB 的新型内存,GDDR7。虽然 HBM 提供极快的速度(尽管不如 Groq 的静态随机存取存储器 (SRAM)),但它在 GPU 上的供应有限,而且成本也成为扩展的障碍;GDDR7 提供了一种更具成本效益的方式来摄取海量数据集。

与此同时,英伟达正在将“Groq 风味”芯片集成到其推理路线图中,该芯片将充当高速“解码”引擎。这是为了消除来自谷歌 TPU 等替代架构的威胁,并维持CUDA,十多年来,Nvidia 的软件生态系统一直是其主要护城河。

所有这些都足以让 Groq 投资者 Baker 预测,Nvidia 获得 Groq 许可的举动将导致所有其他专用 AI 芯片被取消——也就是说,除了 Google 的 TPU、特斯拉的 AI5 和 AWS 的 Trainium 之外。

2. SRAM的差异化力量

Groq 技术的核心是静态随机存储器。与 PC 中的 DRAM 或 Nvidia H100 GPU 上的 HBM 不同,SRAM 直接蚀刻到处理器的逻辑中。

微软风险基金 M12 的执行合伙人 Michael Stewart 将 SRAM 描述为以最少的能源短距离传输数据的最佳选择。“在 SRAM 中移动一点的能量约为 0.1 皮焦或更少,”斯图尔特说。“在 DRAM 和处理器之间移动它的情况可能会糟糕 20 到 100 倍。”

在 2026 年的世界中,智能体必须实时推理,SRAM 充当最终的“便笺本”:一个高速工作空间,模型可以在其中操纵符号运算和复杂的推理过程,而无需外部存储器穿梭的“浪费周期”。

然而,SRAM 有一个主要缺点:它体积庞大且制造成本昂贵,这意味着与 DRAM 相比,其容量有限。这就是另一家为 GPU 提供内存的公司 Weka 的首席人工智能官 Val Bercovici 所认为的市场细分。

Bercovici 表示,Groq 友好的人工智能工作负载(SRAM 具有优势)是那些使用 80 亿个及以下参数的小型模型的工作负载。不过,这并不是一个小市场。“这只是 Nvidia 无法服务的一个巨大市场领域,即边缘推理、低延迟、机器人、语音、物联网设备——为了方便、性能或隐私,我们希望在没有云的手机上运行这些东西,”他说。

这个 8B“最佳点”意义重大,因为 2025 年出现了爆炸式增长模型蒸馏,这里有很多企业公司将大型模型缩小为高效的较小版本。虽然 SRAM 对于万亿参数“前沿”模型来说并不实用,但它非常适合这些较小的高速模型。

3. 人择威胁:“便携式堆栈”的兴起

也许这笔交易最被低估的推动因素是 Anthropic 在使其堆栈可跨加速器移植方面取得的成功。

公司拥有开创了便携式工程方法用于训练和推理 - 基本上是一个软件层,允许其 Claude 模型在多个 AI 加速器系列上运行 - 包括 Nvidia 的 GPU 和Google 的 Ironwood TPU。直到最近,Nvidia 的主导地位还受到保护,因为在 Nvidia 堆栈之外运行高性能模型是一场技术噩梦。“这是人择的,”Weka 的 Bercovici 告诉我。“事实上,Anthropic 能够……构建一个既可以在 TPU 上也可以在 GPU 上运行的软件堆栈,我认为这在市场上还没有得到足够的重视。”

(披露:Weka 一直是 VentureBeat 活动的赞助商。)

Anthropic 最近致力于访问100 万个 TPU来自谷歌,代表超过千兆瓦的计算能力。这种多平台方法确保该公司不会受到 Nvidia 定价或供应限制的影响。因此对于 Nvidia 来说,Groq 交易同样是一个防御举措。通过集成 Groq 的超快推理 IP,Nvidia 正在确保对性能最敏感的工作负载(例如运行小型模型或作为实时代理的一部分的工作负载)可以容纳在 Nvidia 的 CUDA 生态系统中,即使竞争对手试图跳槽到 Google 的 Ironwood TPU。CUDA 是 Nvidia 为开发人员提供的用于集成 GPU 的专用软件。 

4. 代理“国家地位”战争:Manus 和 KV 缓存

此次 Groq 交易的时间恰逢Meta 收购代理先锋马努斯就在两天前。马努斯的重要性部分在于它对状态性

如果智能体不记得 10 步前做了什么,那么对于市场研究或软件开发等现实任务来说就没用了。KV缓存(键值缓存)是法学硕士在预填充阶段建立的“短期记忆”。

马努斯报道对于生产级代理来说,输入token与输出token的比例可以达到100:1。这意味着代理人所说的每一句话,都在“思考”和“记住”另外 100 个人。Manus 说,在这种环境中,KV 缓存命中率是生产代理最重要的指标。如果该缓存被从内存中“逐出”,代理就会失去思路,并且模型必须消耗大量能量来重新计算提示。

Groq 的 SRAM 可以成为这些代理的“暂存器”(尽管主​​要适用于较小的模型),因为它允许近乎即时地检索该状态。结合英伟达的发电机框架Nvidia 正在构建一个“推理操作系统”,使推理服务器能够跨 SRAM、DRAM、HBM 和其他基于闪存的产品(例如 Bercovici 的 Weka 的产品)对这种状态进行分层。

Supermicro 技术支持高级总监 Thomas Jorgensen 专门为大型企业构建 GPU 集群,他在 9 月份告诉我,计算不再是高级集群的主要瓶颈。向 GPU 提供数据是瓶颈,而突破该瓶颈需要内存。

“整个集群现在就是计算机,”乔根森说。“网络成为了这头野兽的内部部分——用数据喂养这头野兽变得越来越困难,因为 GPU 之间的带宽增长速度比其他任何东西都快。”

这就是英伟达推动分类推理的原因。通过分离工作负载,企业应用程序可以使用专门的存储层以内存级性能提供数据,而专门的“Groq-inside”芯片则可以处理高速令牌生成。

2026年的判决

我们正在进入一个极度专业化的时代。几十年来,现有企业可以通过推出一种占主导地位的通用架构来获胜,而他们的盲点往往是他们忽视的边缘。微软风险基金 M12 的执行合伙人迈克尔·斯图尔特 (Michael Stewart) 告诉我,英特尔长期忽视低功耗就是一个典型的例子。英伟达表示不会重蹈覆辙。“如果即使是领导者,即使是丛林之狮也会获得人才,也会获得技术 - 这表明整个市场只是想要更多的选择,”斯图尔特说。

对于技术领导者来说,信息是不要像构建一个机架、一个加速器、一个答案那样构建堆栈。到 2026 年,那些明确标记工作负载并将其路由到正确层级的团队将获得优势:

  • 预填充重与解码重

  • 长上下文与短上下文

  • 交互式与批处理

  • 小型号与大型号

  • 边缘约束与数据中心假设

您的架构将遵循这些标签。到 2026 年,“GPU 战略”不再是购买决策,而是路由决策。获胜者不会问他们购买了哪个芯片,他们会问每个代币运行在哪里以及为什么。

关于《Nvidia 刚刚承认通用 GPU 时代即将结束》的评论

暂无评论

发表评论

摘要

Nvidia 与 Groq 达成的 200 亿美元战略许可协议标志着 2026 年人工智能推理市场碎片化的开始,标志着一刀切的 GPU 时代的结束。该协议满足了对大规模上下文处理和实时推理不断增长的需求,将工作负载分为预填充和解码阶段。Nvidia 的 Vera Rubin 系列芯片旨在有效地处理这些分裂,而 Groq 的基于 SRAM 的技术则提供高速推理能力。此举还应对来自 Google TPU 和 Anthropic 便携式堆栈方法等竞争对手的威胁,确保在专业解决方案面临市场压力的情况下在 CUDA 生态系统中占据主导地位。