Anthropic 因其 Claude AI 聊天机器人报告的性能问题而面临用户强烈反对财富
作者:Beatrice Nolan
许多开发人员和重度用户表示,Anthropic 广受欢迎的 Claude AI 模型最近性能显着下降,他们表示该模型越来越无法遵循指令,有时会选择不适当的捷径,并且在复杂的工作流程中犯更多错误。
这些抱怨似乎与最近 Anthropic 悄然对 Claude 运作方式做出的改变有关,降低了模型的默认“努力”级别,以便节省模型响应每个请求时处理的令牌数量或数据单元。(人类发言人已经说过公开表示更改已在更改日志中列出,更改日志是用户可用的更新的运行列表。)
每个任务处理的令牌越多,该任务消耗的计算能力就越多。人们普遍猜测,与一些竞争对手相比,Anthropic 宣布的数十亿美元的数据中心容量交易较少,在过去几个月其产品采用率飙升后,可能会出现计算资源短缺的情况。
用户对 Claude 业绩突然下滑的不满以及对 Anthropic 缺乏透明度的愤怒可能会破坏该公司的快速增长,正如该公司希望通过潜在的 IPO 吸引投资者一样。关于 Anthropic 没有坦诚地说明其对 Claude 运营方式所做的改变或这些改变可能会增加使用 Claude 的成本的说法,对 Anthropic 来说尤其具有威胁,因为它比任何其他人工智能公司都更努力地建立比其他人工智能公司更透明、更符合用户利益的品牌声誉。
人择拒绝回答财富—有关记录在案的克劳德用户投诉的具体问题。Boris Cherny,领导其 Claude Code 产品的 Anthropic 高管,回复了针对用户在线投诉,Anthropic 已将 Claude 在回答用户提示时的默认“工作量”降低为“中”,以回应用户反馈 Claude 之前在每个任务上消耗了太多代币。但许多用户抱怨该公司没有向用户强调这一变化。
这种情况引发了一系列猜测和指控(包括一些竞争对手的指控),称该公司由于缺乏计算能力而故意降低性能。
在整个行业中,人工智能公司正面临着 GPU 成本不断上升、数据中心扩展受限以及优先选择哪些产品的艰难权衡,因为对“代理”人工智能系统的需求增速快于基础设施的扩展速度。作为 Anthropic 的发言人曾公开表示人工智能实验室不会降低其模型以更好地满足需求,有理由相信该公司面临着比一些竞争对手更严重的限制。
随着使用量的增加,Anthropic 最近遭受了一系列的中断,并引入了高峰时段更严格的使用限制,引起部分用户的投诉。在内部备忘录中据 CNBC 报道,OpenAI 的营收主管还声称,Anthropic 没有确保足够的计算能力,因此犯了“战略失误”,而且与竞争对手相比,“运营曲线明显更小”。(Anthropic 拒绝回答 CNBC 关于这些说法的问题。)
与此同时,Anthropic 上周还宣布,它已经训练了一个名为 Mythos 的尚未发布的新模型,该模型比 Opus AI 模型的能力要强得多,但它也更大、运行成本更高,这意味着它可能比以前的模型消耗更多的计算能力。Anthropic 强调,出于安全考虑,它尚未向公众发布该模型,但有些人已经 质疑Anthropic 是否缺乏足够的计算能力来支持 Mythos 的广泛部署。
自身成功的受害者
Anthropic 的审查突显了人工智能市场快速变化的性质以及所涉及的利害关系。就在上周,Anthropic 宣布其年化经常性收入 (ARR) 震惊了整个行业。现在300亿美元,高于 2025 年底的 90 亿美元。OpenAI 上个月表示,它每月产生 20 亿美元的收入,即每年 240 亿美元,尽管两家公司报告收入的方式并不完全相同,这使得直接比较存在问题。
Anthropic 最近受益于大量新用户,首先是由于其人工智能编码工具 Claude Code 的流行,后来又得益于其推出后的一波消费者支持。与美国国防部的不和。在特朗普政府将 Anthropic 指定为“供应链风险”后,许多用户从 OpenAI 的 ChatGPT 等竞争对手转向 Claude。Anthropic 曾表示,这场纠纷源于其坚持要求美国政府在合同中同意不将该公司的技术用于致命自主武器或对美国公民进行大规模监视。
在过去的几年里,Anthropic 在人工智能竞赛中取得了重大进展,成为企业人工智能领域的领导者,并在开发人员和企业用户中建立了良好的声誉。但如果围绕克劳德绩效问题的愤怒持续存在,就有可能侵蚀部分商誉,并可能导致公司在关键时刻陷入困境。
为了回应围绕 Claude 最近性能问题的一些争议,Claude Code 负责人 Cherny 表示:据说克劳德作品4.6Anthropic 的旗舰模型在二月初引入了“适应性思维”,该模型允许模型决定对给定任务应用多少推理,而不是使用固定预算。Cherny 表示,3 月初,Anthropic 还将默认设置下调至“中等工作量”级别。虽然 Claude Code 用户可以手动更改该工具的工作量级别,但购买 Cowork 专业版或 Claude 桌面版的用户目前无法更改默认设置。
切尔尼表示,为了解决一些用户问题,该公司将测试“默认团队和企业用户需要付出很大的努力,从扩展思维中受益,即使这会以额外的代币和延迟为代价”。
他还反驳了有关该模型被故意淡化的猜测,以及用户抱怨这一更改的推出缺乏透明度,声称这些更改是为了响应用户反馈而做出的,并通过 Claude Code 界面中的弹出窗口向用户进行标记。
“无法用于复杂的工程任务”
大多数用户投诉都集中在 Anthropic 的人工智能编码工具 Claude Code 上,该工具已成为该公司最受欢迎和增长最快的产品之一。
Claude Code 于 2025 年初推出,作为命令行代理运行,可以在开发人员环境中自主读取、写入和执行代码。自首次亮相以来,它已被个人开发人员和大型企业工程团队广泛采用,他们依靠它来完成复杂的多步骤编码任务。
得益于 GitHub 的分析,最近 Claude Code 的性能变化在社交媒体上引起了广泛关注似乎来自 Stella LaurenzoAMD 人工智能高级总监。在一份广泛分享的分析中,劳伦佐表示,这些变化使克劳德“无法胜任复杂的工程任务。”
在她的分析中,她发现从二月底到三月初,克劳德从“研究优先”方法(在进行更改之前阅读多个文件并收集上下文)转变为更直接的“编辑优先”风格。根据分析,该模型在行动前读取的上下文较少,会犯更多错误,并且需要更多的用户干预。分析还指出,过早停下来、逃避责任或请求不必要的许可等行为有所增加,这与同期“思考”深度的减少有关。
“克劳德已经退化到了不能相信它能够执行复杂工程的地步,”她写道。
Anthropic 的 Cherny 在回应该分析的评论中表示,该分析可能至少误读了部分数据,并声称模型的推理并未减少,但 Anthropic 进行了更改,使得用户不再能看到模型的完整“推理轨迹”。
但劳伦佐并不是唯一一个对该工具有问题的人。
“过去两周我与 Claude Code 进行了令人难以置信的令人沮丧的会议,”Dimitris Papailiopoulos,一位首席研究经理微软,写在X上。“我将努力设置为最大,但它非常草率,忽略指示,并且重复错误。”