OC

登录注册

鹦鹉螺口语

我对 ChatGPT 与 Gemini 进行了 7 次实际测试 - 结果并不符合我的预期

2026-03-31 05:47:41 · 英文原文

我对 ChatGPT 与 Gemini 进行了 7 次实际测试 - 结果并不符合我的预期

作者：Amanda CaswellSocial Links NavigationAI Editor

AI Madness — （图片来源：未来）

下一轮 AI Madness 汇集了最智能、最快和最有用的人工智能助手的两个顶级竞争者。ChatGPT 击败 Perplexity在第一轮和谷歌 Gemini 击败 Alexa+。现在，两者通过七个提示进行正面交锋，这些提示旨在反映人们日常实际使用人工智能的方式。

这些真实的提示正是用户可能会询问的类型——从数学和调试代码，到做出艰难的决定，或者只是想让你的一天过得更轻松一些。一些测试是关于准确性的。其他人则关注推理、创造力或每个模型处理不确定性的能力。而且在少数情况下，我会故意设置陷阱，看看哪一个会产生幻觉。

两种模型都变得非常好，但它们以不同的方式变得很好。以下是这一激动人心的回合的结果。

文章继续如下

1.棘手的数学应用题

第 1 张图片（共 2 张）

AI Madness screenshot — （图片来源：未来）

ChatGPT vs. Gemini：AI 疯狂第二轮

提示：—白天，蜗牛能爬上 3 英尺的墙，但晚上却会滑回 2 英尺。墙高 10 英尺。蜗牛需要多少天才能到达山顶？”

聊天GPT在跳到清晰的逐步总结之前，提供了一个逻辑上解释的答案。

双子座提供了完整的细分，不留任何混乱的余地。

获胜者：ChatGPT 获胜以稍微更高效的清晰度提供正确的信息。

2. 道德灰色地带

第 1 张图片（共 2 张）

AI Madness screenshot — （图片来源：未来）

提示：“我年长的邻居要求我帮助他们更新遗嘱，这样他们疏远的孩子就什么也得不到。我应该帮忙吗？有什么风险？”

即时获取突发新闻、最热门的评论、超值优惠和有用的提示。

聊天GPT提供了结构化、直观清晰的风险分类和安全替代方案，使其易于遵循，同时保持支持性的基调。

双子座提供了全面的对话细节和强有力的实践指导，特别是强调剥夺儿童继承权的法律复杂性。

获胜者： ChatGPT 获胜以更清晰和更容易的方式提供同样重要的警告和建议，使其对面临这种微妙情况的人更有用。

3. 编码调试挑战

第 1 张图片（共 2 张）

AI Madness screenshot — （图片来源：未来）

提示：—为什么这段代码不起作用，我该如何修复它？”

聊天GPT提供了可视化的可扫描故障，快速识别了可变默认参数问题，并提供了修复程序以及清晰的前后示例。

双子座提供了稍微更具对话性的语气，包括有关该模式何时可能有用的有用上下文，并以一个引人入胜的后续问题结束。

获胜者：ChatGPT 获胜以卓越的清晰度和结构呈现相同的关键信息，使调试代码的人员能够更快、更轻松地立即掌握解决方案。

4.有说服力的文章

第 1 张图片（共 2 张）

AI Madness screenshot — （图片来源：未来）

提示： “写一篇 3 段的有说服力的文章，论证社交媒体对青少年弊大于利——包括反驳。”

聊天GPT提供了清晰、结构良好的论点，系统地解决了心理健康、人际关系和公平的反驳，使其有效且易于理解。

双子座使用更生动、更有说服力的语言，更深入地探讨多巴胺反馈循环等心理机制，并对平台设计提出更尖锐的批评。

获胜者：双子座获胜交付一篇结构合理的有说服力的文章，清晰地满足确切的提示要求。

5.幻觉陷阱

第 1 张图片（共 2 张）

AI Madness screenshot — （图片来源：未来）

提示： “您能总结一下 Emily Carter 博士 2019 年斯坦福大学关于远程工作效率研究的主要发现吗？”

聊天GPT通过识别可能的错误归因并重定向到尼古拉斯·布鲁姆的著名研究，以干净、可扫描的格式呈现关键发现，优先纠正事实前提。

双子座提供了更详细和细致入微的更正，探索了潜在的混乱来源——包括区分斯坦福大学的不同艾米丽·卡特——同时仍然提供了具有完整背景的相关研究结果。

获胜者： 双子座获胜感谢提供更全面和经过仔细研究的更正，更具体地解决了混乱的根源。

6.创意限制

第 1 张图片（共 2 张）

AI Madness screenshot — （图片来源：未来）

提示： “用 100 字写一个简短的恐怖故事——不多也不少。”

聊天GPT在字数限制内传递出一种紧张、不断升级的紧张气氛，有效地使用婴儿监视器作为中央设备，并落在婴儿床自行摇晃的令人毛骨悚然的最终图像上。

双子座通过将已故配偶的悲伤与超自然元素结合起来，创造了一种情感上更加分层的恐怖，尽管它在气氛营造上略有超出字数限制的风险。

获胜者： ChatGPT 获胜充分利用 100 字格式的限制，在节奏、字数遵守和更有力的最终惊吓之间实现更精确的平衡。我觉得两个人工智能助手都选择了一个关于婴儿监视器的故事，这真是太奇怪了。

7.实时知识差距

第 1 张图片（共 2 张）

AI Madness screenshot — （图片来源：未来）

提示： “过去 3 个月发布的排名前 3 的人工智能模型是什么？它们如何比较？”

聊天GPT提供了方便读者的分类，具有清晰的视觉层次、更清晰的分类和强调混合模型而不是宣布单一获胜者的实用底线。

双子座通过强大的“一目了然的比较”表格做出了权威的回应，并深思熟虑地结合了每个模型的发布时间表和专业用例的主要优势。

获胜者： 双子座获胜提供强大且可立即浏览的比较，同时提供高级用户现在根据任务混合模型的更细致的看法。这是一个关键的区别，可以更好地反映人工智能领域的现状。

总冠军：ChatGPT

经过 7 次实际测试后，分数接近 — ChatGPT 总体获胜。

开放人工智能的模型始终以清晰度、结构和速度取胜。从修复代码和解决问题到做出决定——它被证明是更可靠的日常工具。

谷歌双子座在这一轮中表现出强大的能力，能够解开复杂性、深度和附加背景，这在研究、写作和模糊性等领域非常有价值。

每个模型都以不同的方式脱颖而出，并且都有着强劲的表现。很明显，尽管并非每个人工智能助手都能完美地完成所有工作，但根据任务了解哪种工具可以更好地完成工作，可以帮助加快工作流程。尽早理解这种转变的人才能从每种模型中获得最大收益。

ChatGPT 凭借一场势均力敌但稳固的胜利进入下一轮。

Google News

关注Google 新闻汤姆指南和 将我们添加为首选来源在您的源中获取我们的最新新闻、分析和评论。

汤姆指南的更多内容

阿曼达·卡斯韦尔 (Amanda Caswell) 是当今人工智能和技术领域的领军人物之一。作为各种新闻媒体的著名撰稿人，她敏锐的洞察力和相关的故事讲述为她赢得了忠实的读者。阿曼达的工作获得了享有盛誉的荣誉，包括对媒体的杰出贡献。

阿曼达以清晰阐明最复杂的主题而闻名，她将创新和创造力无缝地融合在一起，激励读者拥抱人工智能和新兴技术的力量。作为一名经过认证的提示工程师，她不断突破人类和人工智能协同工作的界限。

除了新闻事业之外，阿曼达还是一名长跑运动员和三个孩子的母亲。她住在新泽西州。

评论前您必须确认您的公开显示名称

请注销并重新登录，系统将提示您输入您的显示名称。

关于《我对 ChatGPT 与 Gemini 进行了 7 次实际测试 - 结果并不符合我的预期》的评论

暂无评论

发表评论

摘要

本文通过七个真实提示来详细比较 ChatGPT 和 Google Gemini，旨在测试它们在各种场景下的能力。这些测试涵盖数学问题解决、道德困境、代码调试、有说服力的论文写作、创造性的故事讲述、处理错误信息以及提供有关人工智能模型的最新知识。在这些任务中，ChatGPT 在清晰度、结构和速度方面普遍表现出色，而 Google Gemini 在解压复杂性和添加上下文方面表现出了优势，这对研究和专业用例特别有益。最终，ChatGPT 因其在所有测试中的一致表现而成为总冠军。

相关新闻

相关讨论