代理泡沫
人工智能预测存在一个奇怪的悖论:一方面,你不想成为那个完全忽视最可怕的世界末日场景的人;另一方面,你又不想成为那个完全忽视最可怕的世界末日场景的人;谁愿意被发现自己是愚蠢的乐观呢?与此同时,我们也面临着压力,要相信我们可能正处于泡沫之中,而所有这些炒作和支出都将失败。
同时我曾争论过反对前者,我非常支持后者,并提出了理由泡沫可能是好事。
然而,在 2026 年 3 月举行的 Nvidia GTC 早上,我得出了不同的结论:我不认为我们正处于泡沫之中(矛盾的是,这也许是我们正处于泡沫之中的最真实的证据)。
法学硕士范式
在过去的几周里,首先是在Nvidia 的盈利,然后在上周的背景下Oracle 的,我已经谈到了三个 LLM 拐点。
聊天GPT:第一个 LLM 拐点是 2022 年 11 月 ChatGPT 的推出,这几乎不需要解释。是的,基于 Transformer 的大型语言模型于 2017 年推出,其功能令人印象深刻且不断增长,但并未得到充分重视;策略启动采访系列与丹尼尔·格罗斯和纳特·弗里德曼2022 年 10 月前提是有一项令人难以置信的新技术,却极度缺乏产品应用和启动能量。
不用说,几周后这一切就完全颠倒了。ChatGPT 让世界看到了法学硕士的能力,但最初的版本有两个缺陷,这些缺陷一直困扰着许多人,尤其是那些相信我们正处于泡沫之中的人。
第一个缺陷是法学硕士经常出错,更糟糕的是,当不知道答案时,他们会产生幻觉。这让法学硕士感觉就像是一种室内把戏:它有效时令人惊叹,但不是你可以指望的东西。第二个与第一个相关:即使在有缺陷的状态下,法学硕士也非常有用,但你需要知道它们的用途,并且你需要主动注意管理错误并验证输出,以防出现幻觉。
o1:第二个 LLM 拐点是 2024 年 9 月 OpenAI o1 模型的发布。到那时,LLM 已经有了巨大的进步,这既要归功于新的基础模型,也要归功于后期培训的持续改进;这意味着在 ChatGPT 或 Claude 中构成答案的标记流现在更有可能是正确的,并且不太可能出现幻觉。然而,o1 的不同之处在于,它在将答案提供给你之前会对其进行推理。我解释过当时的更新:
传统法学硕士面临的巨大挑战是它们具有路径依赖性;虽然他们可以从整体上考虑这个谜题,但一旦他们做出特定的猜测,他们就会陷入困境,注定会失败。这是所谓的“自回归大型语言模型”的一个根本弱点,迄今为止,这是所有这些模型的弱点。
推理模型进行自我评估:它们研究答案,然后考虑答案是否正确,或者是否应该考虑其他选择。就我上面指出的弱点来说,他们在内部积极主动地管理错误,减轻用户的负担,不断积极指导LLM,效果是显着的。在我看来,如果说 ChatGPT 的卓越之处在于使 LLM 更具可读性和实用性,那么 o1 的卓越之处在于使 LLM 更加可靠和重要。
作品 4.5:Anthropic 于 2025 年 11 月 24 日发布了 Opus 4.5,相对低调;然后,在 12 月的某个时候,Claude Code 和 Opus 4.5 似乎突然能够做以前不可能完成的事情。OpenAI 大约在同一时间(12 月 18 日)发布了 GPT-5.2-Codex,它具有类似的功能。人们谈论“特工”已经有一段时间了。然而,突然之间,克劳德和 Codex 都真正完成了任务(其中一些需要几个小时)并且正确地完成了任务。
然而,有关 Opus 4.5 模型发布日期的一点很有趣:代理工作负载的关键在于它们不仅仅与模型有关,或者像 o1 一样递归地使用模型。相反,使代理工作负载发挥作用的关键组件是“工具”,即实际控制模型的软件。
换句话说,Claude Code 和 OpenAI 的 Codex 实际上将用户从模型中抽象出来:你向代理发出指令,代理实际上指导模型;重要的是,代理还可以使用其他确定性工具,这意味着它可以验证其结果。就编码而言,在范例一中,法学硕士将生成代码;在范例一中,法学硕士将生成代码。在范例二中,法学硕士会思考它生成的代码并迭代以获得更好的答案;在此范例中,代理指示模型生成代码,然后检查代码是否实际工作,如果不工作,则不会再次尝试,所有这些都无需用户参与。
换句话说,原始 ChatGPT 中的许多最大缺陷已得到大幅缓解,至少对于编码等可验证用例来说是这样:法学硕士更有可能第一次就正确,他们对结果进行推理以增加机会,现在代理可以主动验证结果,而无需人类参与其中。这就留下了一个缺陷:真正弄清楚这些东西的用途。
对代理的需求减少
过去几周我一直在写这三个拐点的原因是为了解释为什么该行业的计算如此受限,以及为什么超大规模企业对资本支出的大规模投资是合理的。
- 第一个范式需要大量计算来进行训练,但推理(实际上回答问题)相对有效:您只需将模型输出的任何内容发送给用户即可。
- 第二种范式极大地增加了推理所需的计算量,原因有两个:首先,生成答案需要更多的令牌,因为除了答案本身之外,所有“推理”都需要令牌。其次,推理使模型变得更加有用这一事实意味着它们被更多地使用,这本身就推动了代币使用的增加。
- 然而,第三种范式真正使天平倾斜,资本支出不是投机性投资,而是满足远远超过供给的需求所急需的投资。首先,生成答案通常需要多次调用推理模型。其次,代理本身需要计算,而计算——以及代理使用的工具——是CPU 比 GPU 做得更好。第三,代理是实用性的又一进步,这意味着它们的使用量甚至将超过聊天机器人中的推理模型。
我认为第三点的体现方式尚未得到充分重视。毕竟,使用聊天机器人的人比使用代理的人多得多,而且我想说的是,大多数人没有像他们应该的那样使用聊天机器人!这是一个代理问题:要从人工智能中获得最大收益,需要真正主动地使用人工智能;我写于 2024 年MKBHD 适合一切:
大型语言模型是智能的,但它们没有目标、价值观或驱动力。它们是任何愿意并且能够主动使用它们的人都可以使用的工具。我不认为布朗利或我特别需要人工智能,或者,换句话说,受到人工智能的过度威胁……然而,我们和人工智能之间的联系恰恰是我们不需要它的事实:媒体的本质是我们已经可以自己创建文本和视频,并利用互联网——至少在布朗利的情况下——给2.3亿美元带来最后一击初创公司。
但有多少行业不是媒体,仍然需要一个团队来实现一个人的愿景?有多少应用程序或服务尚未构建,不是因为人们无法想象它们或在脑海中创建它们,而是因为它们没有资源、团队或协调能力来实际交付它们?
这就涉及到人工智能影响世界的媒介,超越了客户支持成本节约或任何其他明显容易实现的目标:随着大型语言模型理解和执行复杂命令的能力(根据需要进行确定性计算)的增强,主权个人告诉人工智能做什么的潜在权力也随之增强。互联网消除了媒体复杂成本结构的必要性和固有的防御性;人工智能有潜力为更多行业做同样的事情。
两年后读到这篇文章很有趣,意识到我在最新的范式转变发生之前就已经写了它,但仍然对这种范式转变感到完全震惊。这就是功能性智能体的实际意义:你可以看到它们的到来,但当它们到达时仍然会感到惊讶——正如人们必须对与人工智能相关的所有事物所说的那样,它们以一种有史以来最糟糕的形式出现。
然而,对代理的影响是最深远的:是的,你需要代理才能使用代理,是的,拥有该代理的人数可能远远少于可能使用聊天机器人的人数。当然,你可以提出这样的情况(几乎肯定是准确的):聊天机器人将凭借自己的能力成为代理管理者,但更关键的观察是,通过将人类从直接模型管理中抽象出来,任何一个人都可以控制多个代理。
这对于计算(进而延伸到经济影响)而言意味着,它实际上不会要求许多拥有代理权的人大幅增加计算量,并积极利用这些计算量来创建具有有意义的经济影响的产品。换句话说,代理的兴起不仅意味着计算量的急剧增加,还意味着人类大规模采用代理的需求的缩小。是的,人工智能仍然需要代理;它只是不需要那么多人的代理就能产生深远的影响。
企业经济要务
在最近推出 MacBook Neo 后,关注苹果的媒体注意到了华硕首席财务官 Nick Wu 的评论:该公司最近的财报电话会议将售价 599 美元的电脑描述为“对整个市场的冲击”;然而,同样有趣的是,吴试图淡化 Neo 对该市场的潜在影响:
事实上,我们早在去年下半年就听说 MacBook Neo 即将上线。所以我们做了一些内部准备。但在产品正式发布后,我们发现其规格存在一定的局限性。比如内存是不可升级的,而且只有8GB的内存。因此这可能会限制某些应用。所以我认为苹果在定位产品时,可能更注重内容消费。这与主流笔记本的使用场景有些不同,因为在这种情况下,Neo 感觉更像是平板电脑,因为平板电脑主要用于内容消费。
考虑到 Neo 处理器的强大能力以及 Mac 操作系统在 8GB RAM 上的运行效果,这感觉有点逃避,这在一定程度上要归功于苹果对硬件和软件的深度集成;与此同时,吴正在挖掘一些真实的东西,那就是大多数消费者大多只是想消费内容(我想补充一点,这意味着他应该更加担心 Neo,而不是更少)。这就是为什么你最喜欢的生产力应用程序最终总是转向企业:是公司愿意为生产力付费,因为他们是真正为他们希望提高生产力的员工付费的人。
预计这也适用于人工智能是合理的:至少在短期内,人工智能最引人注目的消费者应用是谷歌和 Meta 的广告业务,它们与内容并存。出于同样的原因,OpenAI 认为它可以将一小部分消费者转化为订阅者始终是不现实的;这既是广告模式必不可少的原因,也是广告模式不足以支付账单的原因。毫无疑问,大多数人都不想为人工智能付费;他们是否想充分利用它来使广告模型发挥作用还有待观察。
换句话说,Anthropic 几乎完全专注于企业市场,这是正确的做法:公司表现出愿意为能够提高员工生产力的软件付费,而人工智能在这方面无疑符合要求。然而,真正让企业高管垂涎欲滴的是,人工智能的前景不仅仅是消除工作岗位,而是因为它可以提高整个公司的生产力。
即使在大公司中,情况始终如此,相对少数的人实际上以有意义的方式推动并推动公司向前发展。然而,这种驱动力已经通过一个充满人类的巨大装置进行了过滤,这些装置在某些方面加速了努力,并在其他方面阻碍了它。该机构可以产生广泛的影响,但它也带来巨大的协调成本。
然而,代理商将更加倾向于纯粹的加速,从而使这些价值驱动因素更具影响力。我赞同这样的观点:最好的公司希望利用人工智能做更多事情,而不仅仅是省钱;然而,大型组织的现实是,人工智能的积极影响不会体现在消除工作,而是替换组织机器中难以管理和激励的人类齿轮,代理人不仅按照指示行事,而且孜孜不倦、持续不断地这样做,直到完成工作。
这只会让我们并不处于泡沫之中的论点变得更有说服力:
- 首先,法学硕士的所有弱点都可以通过计算的指数级增长来解决。
- 其次,需要有效运用人工智能来满足需求猛增的人数正在减少。
- 第三,使用代理商的经济回报不仅会影响利润,还会影响营收。
在这种背景下,每个超大规模企业都表示计算需求超过供应,并且面对股市的怀疑,每个超大规模企业都宣布超出预期的资本支出计划,这有什么奇怪的吗?
这也是为什么人工智能带来的即将到来的裁员浪潮不应被完全忽视,因为它是纠正新冠时代过度招聘决策或在多次收缩后调整薪酬结构的有用掩护。这都是真的!
与此同时,值得考虑的是,公司会变得臃肿,因为这长期以来一直是扩大规模的唯一途径,而且很难知道在什么时候,协调成本和庞大的劳动力拖累所带来的收益递减会超过边缘员工的收益;只有当你飞过了它之后,你才会发现那个点,并且很难倒退。
然而,人工智能不仅为消除这种臃肿现象提供了上述借口,而且还将“精简规模”这一点显着转向了规模小得多的劳动力。越来越多的公司不仅想知道他们是否为前人工智能世界招聘了太多员工,而且还想知道他们是否为后人工智能世界招聘了太多员工;最具前瞻性和面向未来的方法可能是增加而不是减少削减,希望那些留下来的人别无选择,只能与代理商重建规模。毕竟,如果他们不这样做,那么从一开始就采用人工智能构建的规模小得多的竞争对手很快就会以更小的成本结构和更多的功能紧随其后,而且这些功能将随着时间的推移而结构性地增强。
这很可能会变得丑陋。我并不是提倡这种结果,而是分析为什么它可能会发生。经济需求将是无法抗拒的,并且随着时间的推移将刺激对更多计算的需求,进一步证明这不是泡沫。
代理和人工智能价值链
另一个重要的泡沫问题是关于 Anthropic 和 OpenAI 的天价估值:当然,也许所有这些东西都是真实的,但如果模型是一种商品,是否有任何利润可赚?Horace Dediu 在 Asymco 提出了这些问题,并想知道苹果是否正在执行企业史上最辉煌的一步:
这就是苹果公司的赌注变得天才的地方。人工智能模型的商品化速度比任何人预测的都要快。软件和硬件都有商品化的趋势。保护措施是存在的,但它们与集成和分发有关。DeepSeek 花费 600 万美元构建了一个模型,与价值 1 亿美元的系统相匹配。目前,80% 的初创企业寻求风险投资,采用开源模式。这些公司花费数千亿打造的护城河正在消失。
苹果比任何人都更了解这一点。它没有构建自己的人工智能模型,而是以每年约 10 亿美元的价格向 Google Gemini 授权。外包成本10亿美元,为何还要花1000亿美元建工厂?如果明年出现更好的型号,苹果只需更换供应商……苹果并没有错过人工智能革命。它只是赌赢家不会是那些建设基础设施的人。他们将成为拥有客户的人,而地球上没有其他人拥有最好的客户。
我认为在第一个法学硕士范式中几乎所有这些主张都是站得住脚的。没过多久,多个基本模型就足以满足大多数人使用法学硕士的用途,例如烹饪或基本医疗建议,或者作为治疗师或伴侣。此外,我们有理由期望这种质量的模型很快就能在本地运行。我自己证明这是苹果的机会回想起来,他们自己的模型——他们确实尝试过制造,与 Dediu 不同——未能发货。
然而,推理范式在局部推理案例中出现了一个重大漏洞。考虑到生成的标记数量,推理模型不仅需要快速计算,而且还需要指数级更多的内存来容纳更大的上下文窗口,这是本地模型的最大限制。苹果制造了令人难以置信的芯片,具有引人注目的统一内存架构,使基本推理比其他任何人都更适合其设备;在可预见的未来,与基于云的模型远程竞争的推理模型也不可能在本地运行。
然而,可能对德迪乌的论点造成致命打击的是特工。具体来说,我在上面指出,Opus 4.5 引人注目的不是模型发布本身,而是对 Claude Code 工具的更改,使其突然变得更加有用。这意味着模型性能并不是唯一重要的事情:模型和工具之间的集成才是真正的代理差异化所在。
对于弄清楚人工智能行业的未来结构和利润流向来说,这是一件非常重要的事情,因为利润从价值链的模块化部分(商品化)流向价值链的一体化部分(差异化)。苹果当然是这方面的终极例子:它的硬件没有商品化,因为它与软件集成在一起,这就是为什么苹果可以持续收取更高的价格并获取几乎全部个人电脑和智能手机行业的利润。
那么,如果代理需要模型和工具之间的集成,那么构建这种集成的公司——特别是 Anthropic 和 OpenAI(Gemini 是一个强大的模型,但谷歌尚未推出令人信服的工具)——实际上将比去年年底看起来的利润要高得多。出于同样的原因,那些押注模型商品化的公司可能很难提供有竞争力的产品。
这方面煤矿里的金丝雀就是微软。微软曾经幻想自己是一家综合人工智能提供商,在财报电话会议上吹嘘其与 OpenAI 的深度整合将如何意味着可持续的差异化基础设施;一个月后,OpenAI 几乎崩溃,微软也开始转变方向,越来越多地将模型视为商品和核心人工智能战略这需要围绕模型构建基础设施,这些模型本身可以互换,并且可以从微软的客户那里抽象出来。
快进到上周然而,当微软透露他们将如何处理人工智能减少席位的潜在业务影响时,这对于他们基于席位的商业模式来说是一个问题:该公司将把人工智能捆绑到一个新的更高层次的企业产品E7中,该产品的成本将是以前顶级E5的两倍——每个席位每月99美元。这是一个巨大的增长,微软需要用人工智能来证明这一点,人工智能实际上可以提高这些座位的工作效率,他们与新捆绑包一起推出的产品是 Copilot Cowork。
如果“Cowork”这个名字听起来很熟悉,那是因为这基本上是企业版克劳德·科沃克是该公司今年早些时候发布的 Claude Code 的 GUI 版本。与 Microsoft 版本存在重要差异,包括后者在云中运行并基于您的组织数据以及随之而来的所有权限和访问策略。然而,至关重要的是,Copilot Cowork(与 Copilot 聊天机器人不同)并非与模型无关:Cowork 是一个代理,这意味着它需要模型和线束,而它们是两个集成部分,而不是模块化组件。
其影响是重大的:微软承认,至少目前来说,提供一个真正引人注目的、企业愿意付费的代理产品意味着放弃其与模型无关的既定目标;推而广之,这就提出了模型现在不是、将来也不会是商品的可能性,因为代理人需要的不仅仅是模型。
这无疑引发了人们对苹果决定仅仅授权 Gemini 并以新 Siri 的形式自行构建一个工具的质疑。微软认为,走这条路他们无法提供引人注目的产品;苹果做了哪些事情来激发人们对他们可以做得更好的信心?如果说有什么不同的话,那就是该公司的可取之处在于 Dediu 的结论:消费者可能根本不太关心代理商,在这种情况下,苹果只要足够好就可以了,尽管微软意识到,它需要与 Anthropic 分享更多的利润,而企业客户确实关心代理商。
然而,就本文而言,重要的是,如果代理商将 Anthropic 和 OpenAI 作为价值链中的整合点,那么关于这些公司被高估或其他公司代表它们在数据中心进行大规模投资的泡沫论点可能是不正确的。
最后,我必须谈谈我的开场白:我长期以来一直认为,只要每个人都担心泡沫,就没有必要担心泡沫;在这一刻,人们将谨慎抛之脑后,并保证这绝对不是我们可能真正陷入的泡沫。而且,我认为代理商的崛起意味着我们并没有处于泡沫之中。资本支出是有保证的,而且 Anthropic 和 OpenAI 看起来比以往任何时候都更加耐用。如果我宣称不存在泡沫就意味着存在泡沫,那就这样吧!