OC

Knowledge OS
鹦鹉螺口语
Claude Sonnet 4.6:基准性能,如何尝试
2026-02-18 09:46:28 · 英文原文

Claude Sonnet 4.6:基准性能,如何尝试

人择刚刚释放其最新的大型语言模型(LLM),Claude Sonnett 4.6。周二发布的产品很快就发布了克劳德作品 4.6,该公司的高级人工智能模型,2 月 5 日。

据 Anthropic 称,“Claude Sonnet 4.6 是我们迄今为止最强大的 Sonnet 模型。”该公司称 Sonnet 4.6 拥有 100 万枚代币上下文窗口处于测试阶段。至关重要的是,Anthropic 报告称 Sonnet 4.6 在内部安全测试中表现良好,表现出较低的幻觉和阿谀奉承倾向。 

Anthropic 表示:“Sonnet 4.6 为我们更多的用户带来了大大提高的编码技能。”他指的是 Claude 在使用 AI 编码的开发人员中的受欢迎程度。

如果您想使用 Anthropic 最新的人工智能模型,该公司已经让一切变得非常简单。以下是如何访问 Clause Sonnet 4.6。

如何使用克劳德十四行诗 4.6

对于免费版和专业版用户,Claude Sonnett 4.6 现已作为默认模型提供克劳德.ai和克劳德·科沃克。Anthropic 还通过其 API 和所有主要云平台推出了该模型。

可混搭光速

免费用户的使用率将受到限制,具体取决于当前需求。每五个小时重置一次限制。对于那些需要更高限额的人,Claude Sonnet 4.6 的价格与之前的型号相同。Claude Pro 计划的费用为每月 20 美元,如果按年付费则每月 17 美元。如果通过 API,Claude Sonnett 4.6 的起价为每百万输入代币 3 美元,每百万输出代币 15 美元。

Claude Sonnet 4.6 基准测试性能

根据 Anthropic 的基准测试,Claude Sonnet 4.6 是该公司最强大的代理财务分析和办公任务模型,击败了 Google 的 Gemini 3 Pro 和 OpenAI 的 GPT 5.2 等竞争对手。 

在这些任务中,Claude Sonnet 4.6 还击败了 Anthropic 自己的 Opus 4.6,这是 Anthropic 最强大的人工智能模型。 

Anthropic 在其发布公告中表示,许多早期使用 Claude Sonnet 4.6 的开发人员更喜欢该模型,不仅优于其前身 Claude Sonnet 4.5,还优于 Claude Opus 4.5。根据Sonnet 4.6系统卡,尽管 Claude Opus 4.6 得分更高,但新模型在 Humanity's Last Exam 等关键基准上有所改进。

基准性能

  • GPQA 钻石级:89.9%

  • ARC-AGI-2:58.3%

  • MMLU:89.3%

  • SWE 基准验证:79.6%

  • HLE(人类最后的考试)有工具 49.0%,无工具 33.2%

人工智能驱动的保险公司 Pace 告诉 VentureBeat,Sonnet 4.6 在其复杂的保险计算机使用基准测试中,在所有 Claude 模型中得分最高。

这些结果值得注意,因为 Claude Opus 模型通常更智能,更适合复杂推理。

Claude Sonnet 4.6 不仅比某些 Opus 型号更强大,而且价格也更便宜。如前所述,Claude Sonnet 4.6 的定价为 3 美元/15 美元,而 Opus 4.6 的定价为 5 美元/25 美元。

关于《Claude Sonnet 4.6:基准性能,如何尝试》的评论

暂无评论

发表评论

摘要

Anthropic 发布了最新的大型语言模型 (LLM) Claude Sonnet 4.6,具有 100 万个标记上下文窗口和改进的编码技能。该模型在安全测试中表现良好,产生幻觉或阿谀奉承的倾向较低。claude.ai 上的免费用户和专业用户可通过 API 获取,与之前的型号相比,它的价格具有竞争力。Claude Sonnet 4.6 在代理财务分析和办公任务方面优于 Google 的 Gemini 3 Pro 和 OpenAI 的 GPT 5.2 等竞争对手,尽管在复杂的推理基准上不如 Anthropic 的高级模型 Opus 4.6 强大。