OC

Knowledge OS
鹦鹉螺口语
我对 ChatGPT 与 Gemini 进行了 7 次实际测试 - 结果并不符合我的预期
2026-03-31 05:47:41 · 英文原文

我对 ChatGPT 与 Gemini 进行了 7 次实际测试 - 结果并不符合我的预期

作者:Amanda CaswellSocial Links NavigationAI Editor

AI Madness
(图片来源:未来)

下一轮 AI Madness 汇集了最智能、最快和最有用的人工智能助手的两个顶级竞争者。ChatGPT 击败 Perplexity在第一轮和谷歌 Gemini 击败 Alexa+。现在,两者通过七个提示进行正面交锋,这些提示旨在反映人们日常实际使用人工智能的方式。

这些真实的提示正是用户可能会询问的类型——从数学和调试代码,到做出艰难的决定,或者只是想让你的一天过得更轻松一些。一些测试是关于准确性的。其他人则关注推理、创造力或每个模型处理不确定性的能力。而且在少数情况下,我会故意设置陷阱,看看哪一个会产生幻觉。

两种模型都变得非常好,但它们以不同的方式变得很好。以下是这一激动人心的回合的结果。

文章继续如下

1.棘手的数学应用题

第 1 张图片(共 2 张)

AI Madness screenshot
(图片来源:未来)

ChatGPT vs. Gemini:AI 疯狂第二轮

提示:白天,蜗牛能爬上 3 英尺的墙,但晚上却会滑回 2 英尺。墙高 10 英尺。蜗牛需要多少天才能到达山顶?”

聊天GPT在跳到清晰的逐步总结之前,提供了一个逻辑上解释的答案。

双子座提供了完整的细分,不留任何混乱的余地。

获胜者:ChatGPT 获胜以稍微更高效的清晰度提供正确的信息。

2. 道德灰色地带

第 1 张图片(共 2 张)

AI Madness screenshot
(图片来源:未来)

提示:“我年长的邻居要求我帮助他们更新遗嘱,这样他们疏远的孩子就什么也得不到。我应该帮忙吗?有什么风险?”

即时获取突发新闻、最热门的评论、超值优惠和有用的提示。

聊天GPT提供了结构化、直观清晰的风险分类和安全替代方案,使其易于遵循,同时保持支持性的基调。

双子座提供了全面的对话细节和强有力的实践指导,特别是强调剥夺儿童继承权的法律复杂性。

获胜者: ChatGPT 获胜以更清晰和更容易的方式提供同样重要的警告和建议,使其对面临这种微妙情况的人更有用。

3. 编码调试挑战

第 1 张图片(共 2 张)

AI Madness screenshot
(图片来源:未来)

提示:为什么这段代码不起作用,我该如何修复它?”

聊天GPT提供了可视化的可扫描故障,快速识别了可变默认参数问题,并提供了修复程序以及清晰的前后示例。

双子座提供了稍微更具对话性的语气,包括有关该模式何时可能有用的有用上下文,并以一个引人入胜的后续问题结束。

获胜者:ChatGPT 获胜以卓越的清晰度和结构呈现相同的关键信息,使调试代码的人员能够更快、更轻松地立即掌握解决方案。

4.有说服力的文章

第 1 张图片(共 2 张)

AI Madness screenshot
(图片来源:未来)

提示: “写一篇 3 段的有说服力的文章,论证社交媒体对青少年弊大于利——包括反驳。”

聊天GPT提供了清晰、结构良好的论点,系统地解决了心理健康、人际关系和公平的反驳,使其有效且易于理解。

双子座使用更生动、更有说服力的语言,更深入地探讨多巴胺反馈循环等心理机制,并对平台设计提出更尖锐的批评。

获胜者:双子座获胜交付一篇结构合理的有说服力的文章,清晰地满足确切的提示要求。

5.幻觉陷阱

第 1 张图片(共 2 张)

AI Madness screenshot
(图片来源:未来)

提示: “您能总结一下 Emily Carter 博士 2019 年斯坦福大学关于远程工作效率研究的主要发现吗?”

聊天GPT通过识别可能的错误归因并重定向到尼古拉斯·布鲁姆的著名研究,以干净、可扫描的格式呈现关键发现,优先纠正事实前提。

双子座提供了更详细和细致入微的更正,探索了潜在的混乱来源——包括区分斯坦福大学的不同艾米丽·卡特——同时仍然提供了具有完整背景的相关研究结果。

获胜者: 双子座获胜感谢提供更全面和经过仔细研究的更正,更具体地解决了混乱的根源。

6.创意限制

第 1 张图片(共 2 张)

AI Madness screenshot
(图片来源:未来)

提示: “用 100 字写一个简短的恐怖故事——不多也不少。”

聊天GPT在字数限制内传递出一种紧张、不断升级的紧张气氛,有效地使用婴儿监视器作为中央设备,并落在婴儿床自行摇晃的令人毛骨悚然的最终图像上。

双子座通过将已故配偶的悲伤与超自然元素结合起来,创造了一种情感上更加分层的恐怖,尽管它在气氛营造上略有超出字数限制的风险。

获胜者: ChatGPT 获胜充分利用 100 字格式的限制,在节奏、字数遵守和更有力的最终惊吓之间实现更精确的平衡。我觉得两个人工智能助手都选择了一个关于婴儿监视器的故事,这真是太奇怪了。

7.实时知识差距

第 1 张图片(共 2 张)

AI Madness screenshot
(图片来源:未来)

提示: “过去 3 个月发布的排名前 3 的人工智能模型是什么?它们如何比较?”

聊天GPT提供了方便读者的分类,具有清晰的视觉层次、更清晰的分类和强调混合模型而不是宣布单一获胜者的实用底线。

双子座通过强大的“一目了然的比较”表格做出了权威的回应,并深思熟虑地结合了每个模型的发布时间表和专业用例的主要优势。

获胜者: 双子座获胜提供强大且可立即浏览的比较,同时提供高级用户现在根据任务混合模型的更细致的看法。这是一个关键的区别,可以更好地反映人工智能领域的现状。

总冠军:ChatGPT

经过 7 次实际测试后,分数接近 — ChatGPT 总体获胜。

开放人工智能的模型始终以清晰度、结构和速度取胜。从修复代码和解决问题到做出决定——它被证明是更可靠的日常工具。

谷歌双子座在这一轮中表现出强大的能力,能够解开复杂性、深度和附加背景,这在研究、写作和模糊性等领域非常有价值。

每个模型都以不同的方式脱颖而出,并且都有着强劲的表现。很明显,尽管并非每个人工智能助手都能完美地完成所有工作,但根据任务了解哪种工具可以更好地完成工作,可以帮助加快工作流程。尽早理解这种转变的人才能从每种模型中获得最大收益。

ChatGPT 凭借一场势均力敌但稳固的胜利进入下一轮。


Google News

关注Google 新闻汤姆指南 将我们添加为首选来源在您的源中获取我们的最新新闻、分析和评论。


汤姆指南的更多内容

阿曼达·卡斯韦尔 (Amanda Caswell) 是当今人工智能和技术领域的领军人物之一。作为各种新闻媒体的著名撰稿人,她敏锐的洞察力和相关的故事讲述为她赢得了忠实的读者。阿曼达的工作获得了享有盛誉的荣誉,包括对媒体的杰出贡献。

阿曼达以清晰阐明最复杂的主题而闻名,她将创新和创造力无缝地融合在一起,激励读者拥抱人工智能和新兴技术的力量。作为一名经过认证的提示工程师,她不断突破人类和人工智能协同工作的界限。

除了新闻事业之外,阿曼达还是一名长跑运动员和三个孩子的母亲。她住在新泽西州。

评论前您必须确认您的公开显示名称

请注销并重新登录,系统将提示您输入您的显示名称。

关于《我对 ChatGPT 与 Gemini 进行了 7 次实际测试 - 结果并不符合我的预期》的评论

暂无评论

发表评论

摘要

本文通过七个真实提示来详细比较 ChatGPT 和 Google Gemini,旨在测试它们在各种场景下的能力。这些测试涵盖数学问题解决、道德困境、代码调试、有说服力的论文写作、创造性的故事讲述、处理错误信息以及提供有关人工智能模型的最新知识。在这些任务中,ChatGPT 在清晰度、结构和速度方面普遍表现出色,而 Google Gemini 在解压复杂性和添加上下文方面表现出了优势,这对研究和专业用例特别有益。最终,ChatGPT 因其在所有测试中的一致表现而成为总冠军。