cURL Error Code: 7 cURL Error Message: Failed to connect to 127.0.0.1 port 9200: Connection refused cURL Error Code: 7 cURL Error Message: Failed to connect to 127.0.0.1 port 9200: Connection refused 我在 9 项艰巨的挑战中测试了 Gemini 3 Flash 与 Claude 4.6 Opus - 这是获胜者 - OurCoders (我们程序员)

OC

Knowledge OS
鹦鹉螺口语
我在 9 项艰巨的挑战中测试了 Gemini 3 Flash 与 Claude 4.6 Opus - 这是获胜者
2026-02-10 06:31:54 · 英文原文

我在 9 项艰巨的挑战中测试了 Gemini 3 Flash 与 Claude 4.6 Opus - 这是获胜者

作者:Amanda CaswellSocial Links NavigationAI Editor

gemini vs claude
(图片来源:Shutterstock)

克洛德4.6 Opus 上线就在几天前,我立即将其与 ChatGPT-5.2 Thinking 进行比较看看它与开放人工智能— 最聪明的模型。当然,鉴于双子座最近的统治地位,我必须看看它与双子座3闪光

我让两个顶级模型进行了九项具有挑战性的测试,涵盖数学、逻辑、编码、创意写作等,这些任务旨在将每个模型的推理、创造力和实用性推向极限。

我的提示不是那种你可以通过反省训练数据来回答的问题;它们需要真正的多步骤思考、情境判断以及遵循复杂约束的能力。以下是 Anthropic 最强大的模型与 Google 最新模型的对比。

1. 多步数学推理

screenshot

(图片来源:未来)

提示:一只蜗牛白天爬上井 3 英尺,但晚上又滑回 2 英尺。这口井有30英尺深。蜗牛哪一天到达山顶?逐步解释你的推理。

克劳德 4.6 作品提供了简明、分步的解释,正确识别了关键的“最后一天”见解,并提供了清晰的最终答案

双子座 3 闪光提供了更详细的、教科书式的细分,明确定义了“每日净进展”和“‘最后一天’规则”等术语来强化逻辑。

获胜者:克劳德获胜以一种更简单、更有效的方式解释经典谜题的技巧,反映了人们自然地思考问题的方式。

2、逻辑推演

screenshot

(图片来源:未来)

提示:一排五栋房子被漆成不同的颜色。绿色房子就在象牙色房子的右侧。中间房子的人喝牛奶。仅给出这三个线索,所有有效的安排是什么?展示你的约束推理。

克劳德 4.6 作品通过使用清晰的表格和推理明确计算所有 24 个有效排列,给出了数学上精确且完整的答案,正确地得出问题“严重未确定”的结论。

双子座3闪光使用“巨型块”概念很好地构建了答案,并提出了四个清晰、抽象的场景,但错误地侧重于将“牛奶”属性分配给表中的象牙色/绿色块,从而误解了固定线索。

即时获取突发新闻、最热门的评论、超值优惠和有用的提示。

获胜者:克劳德获胜因其完美的定量方法,无需添加假设即可正确解决有限的约束,并对所提出的具体问题给出完整的答案。

3. 因果推理

screenshot

(图片来源:未来)

提示:一家公司注意到,在大型促销活动期间,在线销售和网站崩溃都会增加。一位新经理建议取消所有促销活动以减少事故发生。写一份备忘录解释为什么这是不正确的,描述两种趋势之间的实际关系并提出真正的解决方案。

克劳德 4.6 作品提供了一份非常全面和专业格式的备忘录,系统地分解了问题,深入解释了统计概念,并提供了更广泛的详细的、基于证据的解决方案。

双子座3闪光提交了一份尖锐而有效的备忘录,直接识别了逻辑谬误,使用清晰的格式(如项目符号解决方案)以便快速阅读,并提出了具体的、可操作的解决方案。

获胜者:克劳德获胜其卓越的深度、专业的演示和全面的方法不仅纠正了错误,而且提供了坚实的教育框架和更广泛的负责任、可操作的解决方案。

4.算法设计

screenshot

(图片来源:未来)

提示: 编写一个函数,获取会议时间间隔(开始、结束)列表并返回所需的最小会议室数量。然后对其进行优化并解释两种方法的时间/空间复杂度。

克劳德 4.6 作品通过全面实施、优化的解决方案、广泛的测试和详细的比较表,提供了全面的、可立即投入生产的响应,从而深入了解了方法之间的实际权衡。

双子座3闪光首先提出了直观的次优解决方案,然后提出了经典的基于堆的优化,并在可访问的表格中解释了权衡,从而提出了可靠的教育答案。

获胜者:克劳德获胜为了 卓越的彻底性、专业质量的代码和深入的分析,超越了提示,就何时使用每种方法提供清晰、可操作的指导,使其成为卓越的学习资源。

5. 根据描述进行调试

screenshot

(图片来源:未来)

提示:即使页面明显有内容,我的 Python 网络抓取工具仍然返回空结果。当我在浏览器中打开 URL 时,它工作正常。5 个最可能的原因是什么,并编写一个彻底的抓取工具来处理所有这些原因?

克劳德 4.6 作品提供了令人难以置信的详细信息,并提供了功能丰富的基于 Selenium 的指南,其中包括先进的机器人规避技术(例如删除 navigator.webdriver)、有用的错误处理以及用于滚动和数据提取的内置实用程序。

双子座3闪光简要列出了前 5 个原因,并使用 Playwright 提供了一个简单、现代的解决方案,以最小的代码复杂性直接解决所有五个问题。

获胜者:双子座 获胜为了更好的实用性和卓越的直接性,提供更容易实施、运行更快、更符合现代网络抓取处理动态内容和反机器人措施的最佳实践的解决方案。

六、系统设计

screenshot

(图片来源:未来)

提示: 设计一个可处理 100M URL 的 URL 缩短器。涵盖 API、数据库架构、哈希策略以及如何处理冲突和分析。附上图表。

克劳德 4.6 作品包括完整的数据库模式、完全实现的 API 代码、散列和冲突策略的详细讨论以及复杂的多服务架构图。

双子座3闪光重点关注 Base62 编码的核心概念、简单的键值模式以及说明异步分析流程的清晰图表

获胜者:克劳德获胜以其无与伦比的深度和实用性,将我的提示转化为完整的、可实现的技术规范,其中包含工作代码、详细的权衡分析和满足 100M URL 规模要求的现实架构。

7. 受限的创意写作

screenshot

(图片来源:未来)

提示:写一个 200 字的恐怖故事,其中每个句子都以字母表中的下一个字母开头(A、B、C...)。它必须有一个连贯的情节和一个曲折的结局。

克劳德 4.6 作品遵守字数限制,并提供了一个创造性的、概念上令人不安的关于身体交换和被困倒影的情节,保留了恐怖故事的核心元素。

双子座3闪光成功地满足了严格的结构约束,创造了一个关于凶手超自然惩罚的完整连贯的情节,并执行了巧妙的最后转折。

获胜者:双子座 获胜因其卓越的叙事凝聚力、更强的恐怖元素和更令人印象深刻的最终转折,既与主题产生共鸣,又与所需结构完美融合。

8. 视角切换

screenshot

(图片来源:未来)

提示:向 5 岁的孩子解释三次量子纠缠,一次向大学新生解释,一次向物理学博士解释。每个解释都应该对该受众真正有用。

克劳德 4.6 作品为孩子(魔币)提供了一个简单而迷人的类比,为正确识别核心悖论的本科生水平提供了可靠的解释,为物理学家提供了正确使用正式术语并涵盖资源理论应用的研究生水平解释。

双子座3闪光分享了对孩子(魔法袜子)的恰如其分的类比,对大学新生的清晰、严肃的解释,重点关注“为什么它很重要”,以及对引用关键定理的物理学家的技术上精确、基于方程的解释。

获胜者:双子座 获胜对于所有三个层次的最佳回应:它的 5 岁孩子的类比更加具体,它的大学新生解释直接解决了“禁止交流”的保障,它的物理学家级别的答案更加密集,包含特定的数学形式主义和基本定理。

9. 歧义处理

screenshot

(图片来源:未来)

提示:“我看到她的鸭子”这句话有多重含义。列出每种可能的解释,为每种解释提供上下文句子,然后写一个简短的喜剧草图,其中的歧义会导致误解。

克洛德提供了五种不同解释(包括像“鸭织物”这样微妙的解释)的全面的、具有语言意识的列表,并写了一个搞笑的、不断升级的草图,真正探索了人物之间对话中的核心模糊性。

双子座提供了三个核心解释的可靠清单,并写了一个巧妙的、结构良好的草图,具有明确的“揭示”结局,有效地利用了歧义来制造幽默的误解。

获胜者:克劳德获胜因为其异常有趣的草图使误解持续了更长时间,制造了更多混乱,感觉更像是经典的喜剧场景。

总冠军:Claude 4.6 Opus

在九项测试中,Claude Opus 4.6 在六个类别中获胜,而 Gemini 3 Flash 在三个类别中获胜。Claude 一贯的优势来自于深度和彻底性——它在我提出的几乎每一个技术和分析挑战中都提供了更完整的推理、更可用于生产的代码和更丰富的分析。当一项任务需要严格的约束解决、专业级的输出或分层解释时,克劳德是更强的选择。

Gemini 3 Flash 凭借懂得何时少即是多而赢得了胜利。它的网络抓取解决方案更倾向于现代实用的工具,而不是详尽的工具,并且它的恐怖故事在​​严格的创意限制下实现了更紧密的叙事凝聚力。它还在观众适应性解释方面展现了真正的实力,在量子纠缠提示中击败了克劳德。

结论:如果您需要最大的深度、分析的严谨性或可以交付的代码,Claude Opus 4.6 是您的最佳选择。最好的型号仍然取决于任务,但总的来说,Claude Opus 4.6 是能力更强的全能型。


Google News

关注Google 新闻汤姆指南 将我们添加为首选来源在您的源中获取我们的最新新闻、分析和评论。


汤姆指南的更多内容

阿曼达·卡斯韦尔 (Amanda Caswell) 是一位屡获殊荣的记者、青少年畅销书作家,也是当今人工智能和技术领域的领军人物之一。作为各种新闻媒体的著名撰稿人,她敏锐的洞察力和相关的故事讲述为她赢得了忠实的读者。阿曼达的工作获得了享有盛誉的荣誉,包括对媒体的杰出贡献。

阿曼达以清晰阐明最复杂的主题而闻名,她将创新和创造力无缝地融合在一起,激励读者拥抱人工智能和新兴技术的力量。作为一名经过认证的提示工程师,她不断突破人类和人工智能协同工作的界限。

除了新闻事业之外,阿曼达还是一名长跑运动员和三个孩子的母亲。她住在新泽西州。

评论前您必须确认您的公开显示名称

请注销并重新登录,系统将提示您输入您的显示名称。

关于《我在 9 项艰巨的挑战中测试了 Gemini 3 Flash 与 Claude 4.6 Opus - 这是获胜者》的评论

暂无评论

发表评论

摘要

在数学、逻辑、编码、创意写作、系统设计和歧义处理方面的九项测试中,Claude 4.6 Opus 的表现超过了 Gemini 3 Flash。Claude 因其深度、彻底性以及提供更完整推理和生产就绪解决方案的能力而表现出色。双子座通过提供实用、简洁的答案(少即是多)赢得了三个类别。总体而言,Claude 4.6 Opus 展示了卓越的分析严谨性和全面的方法,使其成为需要详细分析和专业级输出的任务的顶级模型。

相关新闻

相关讨论