的世界人工智能竞争十分激烈。每年,各大公司都来来回回,都试图成为最好、最具创新力的公司,登上排行榜榜首,成为世界的首选。
然而,尽管有很多选项可供选择,但其中三个选项一直在争夺头把交椅。这些是开放人工智能— 的聊天GPT,克洛德来自 Anthropic,Google 自己的双子座。通过最近的更新,Anthropic 可能在很多方面成为了领先的选择。原因如下。
编码
自从人工智能聊天机器人开始允许振动编码(通过提示编写代码的能力),Anthropic 一直是该领域的领导者。从那时起,这已成为公司的主要关注点,每次迭代都推动该领域的显着改进。
当谈到推出时克劳德作品 4.5,这没有什么不同。在Anthropic 自己的测试,Opus 4.5 的表现优于两者双子座 3 专业版和GPT-5.1 专业版。这并不是说它的竞争对手总体上是更差的型号。
Gemini 3 在对研究生水平挑战以及写作任务的理解方面优于 Claude。
然而,对于 Anthropic 来说,这个最新模型的目标是在编码方面足够好,以超越人类。
当 Anthropic 面试工程候选人时,他们会接受该公司声称的“众所周知的困难的带回家考试”。作为测试期的一部分,每个新型号也会进行此测试。
在测试的 2 小时时间内,Claude Opus 4.5 的得分比任何人类候选人都要高。该考试旨在测试压力下的表现以及判断力和技术能力。
对于 Anthropic 来说,他们正在构建一种可以比人类更好地编码的模型,同时只需一半的时间。
职场领袖
当 Claude 发布最新版本的 Opus 时,Anthropic 宣传了其聊天机器人的一个不常被提及的领域。Gemini 和 ChatGPT 可用于工作和提高生产力,但 Opus 4.5 已被大力宣传为您的工作场所工具。
它与 Microsoft 的工具集成,例如 Word、PowerPoint 和 Excel。ChatGPT 等软件也提供此功能,Gemini 也做了同样的事情,但谷歌— 一套工具。
不同之处在于 Anthropic 将此作为核心功能,而不是附加功能。Anthropic 希望成为您在工作场所使用的首选工具。
通过本次更新,Anthropic 推出了克劳德·Excel。该功能可以理解整个 Excel 文档库,可以处理大量数据,同时还可以创建和使用详细、复杂的公式。
这种进步可以节省人们的工作时间,消除处理电子表格或创建长而详细的公式来收集信息的繁琐任务。
安全重点
人择不太关心花哨的东西。然而,它备受关注的一个领域是它的安全性。
Anthropic 声称 Claude Opus 4.5 是“迄今为止我们发布的最稳健的对齐模型,并且我们怀疑,这也是所有开发人员提供的最一致的前沿模型”。
这是指克劳德处理恶意攻击或欺骗模型的企图的能力。与 Gemini 3 Pro 和 GPT-5.1 Pro 相比,Claude Opus 4.5 在表现出令人担忧的行为的频率测试中得分要低得多。
换句话说,它为提示注入做好了更好的准备(人们恶意地在文本中隐藏提示以试图欺骗人工智能模型)。它也不太可能陷入以其他方式劫持模型的恶意尝试。
由于人工智能对我们的生活有更多的控制权,并且有望代表我们承担任务,因此加强安全措施至关重要。
价格问题
然而,尽管如此,克劳德升级可能实际上与大多数人无关(至少一开始是这样)。Anthropic 将 Claude Opus 4.5 锁定在一个巨大的付费墙后面,需要每月投资 90 美元才能使用它。
与 Gemini 3 和 GPT-5.1 的入门价格(均为每月 20 美元左右)相比,这似乎相当昂贵。
Claude Opus 4.5 专为人工智能重度用户而设计,将他们的人工智能聊天机器人助手推向了极致。对于普通人来说,每天都会进行一些奇怪的编码、一些查询和一些奇怪的深入研究,这一切都会让人感觉有点大材小用。
但对于那些发现自己在整个工作日都需要人工智能、为其加载复杂任务并经常依赖它的人来说,Opus 4.5 可能是目前最好的型号。
关注Google 新闻汤姆指南和 将我们添加为首选来源在您的源中获取我们的最新新闻、分析和评论。
汤姆指南的更多内容
- 据我们所知,广告可能很快就会出现在 ChatGPT 上
- 我刚刚和我的孩子们尝试了新的 OpenAI x NORAD 假期工具——这就是 ChatGPT 现在可以做的一切
- 随着苹果人工智能团队领导层发生重大变动,苹果智能的未来充满不确定性——这就是为什么这可能是最好的结果
返回笔记本电脑
![]()
显示更多