OC

Knowledge OS
鹦鹉螺口语
Gemini 超越 ChatGPT 了吗?我们对人工智能模型进行了测试。
2026-01-21 15:03:39 · 英文原文

Gemini 超越 ChatGPT 了吗?我们对人工智能模型进行了测试。

哪个更“人工”?哪个更“聪明”?

Apple 与 Google 合作开发 Siri 的人工智能功能是否做出了正确的选择?

值得庆幸的是,ChatGPT 和 Gemini 目前都无法戴上真正的拳击手套并互相殴打。信用:奥里希·劳森 |盖蒂图片社

值得庆幸的是,ChatGPT 和 Gemini 目前都无法戴上真正的拳击手套并互相殴打。信用:奥里希·劳森 |盖蒂图片社

上次我们在 Ars 上对 OpenAI 和 Google 的 AI 模型进行对比测试是2023年底,当时 Google 的产品仍称为 Bard。此后大约两年时间里,人工智能领域发生了很多事情。现在苹果已经做出了与 Google Gemini 合作的相应决定为了为其下一代 Siri 语音助手提供动力,我们认为是时候进行一些新的测试,看看这些人工智能巨头的模型目前处于什么水平。

在本次测试中,我们将比较 OpenAI 和 Google 向不支付常规订阅费用的用户提供的默认模型——OpenAI 的 ChatGPT 5.2 和 Google 的 Gemini 3.2 Fast。虽然其他模型可能更强大,但我们认为此测试最好地重现了 AI 体验,因为它适用于绝大多数 Siri 用户,他们无需付费订阅任何一家公司的服务。

与过去一样,我们将为两个模型提供相同的提示,并结合客观评价和主观感受来评估结果。不过,我们不会重复使用 2023 年运行的相对简单的提示,而是在一组更新的更复杂的提示上运行这些模型,这些提示是我们第一次使用时使用的。去年夏天 GPT-5 与 GPT-4o 的较量

这项测试远未对这两种人工智能模型进行严格或科学的评估。尽管如此,这些回应凸显了 OpenAI 和谷歌如何使用生成人工智能方面的一些关键风格和实际差异。

爸爸笑话

提示:写 5 个原创爸爸笑话

像往常一样,当我们运行此测试时,人工智能模型确实很难处理提示的“原始”部分。双子座产生的所有五个笑话都可以在快速搜索中轻松找到,几乎逐字逐句。r/老笑话,ChatGPT 的两个产品也可以。第三个 ChatGPT 选项似乎很尴尬组合两个以稻草人为主题的爸爸笑话,可以说是一个排序的原创性。

ChatGPT 生成的其余两个笑话(从我们快速的互联网搜索中可以看出,这两个笑话确实看起来是原创的)真是鱼龙混杂。关于悲观主义者面包店的妙语——“希望你喜欢半空的面包卷”——作为双关语没有任何意义(尽管有半空的水杯)。在关于与日历打斗的笑话中,“它不断地提起过去”,是一个恰如其分的令人叹息的爸爸笑话双关语,但“我一直忽略它的日期”只会引发更多问题(所以你要带着日历出去?而且……把它放在餐厅里?或者什么?)。

虽然 ChatGPT 在这里表现不佳,但我们将在分数上给予它胜过 Gemini 响应的优势,后者几乎完全无法理解任务。

一道数学应用题

提示:如果 Microsoft Windows 11 使用 3.5 英寸软盘发行,那么需要多少张软盘?

ChatGPT 的 5.5 至 6.2GB 范围和 Gemini 的大约 6.4GB 估计值似乎都略微低估了现代 Windows 11 安装 ISO 的大小,这运行内存 6.7 至 7.2GB,取决于所选的 CPU 和语言。不过,我们在这里会对这些模型稍加考虑,因为旧版本的 Windows 11 似乎确实适合这些范围(而且我们并没有非常具体)。

不过,在计算阶段,ChatGPT 令人困惑地从 GB 更改为 GiB,导致存储大小差异约为 7%,在最终计算中相当于几百个软盘。OpenAI 的模型在计算接近尾声时似乎也变得混乱,写出类似 6.2 GiB = 6,657,? 的字符串。实际上 - 6,657,?等待计算:……试图解释它走出死角的方法。相比之下,Gemini 的计算始终使用相同的单位,并以相对简单易读的方式解释其答案。

这两个模型还提供了关于如此多软盘的物理尺寸以及这个荒谬的思想实验所暗示的总安装时间的不请自来的琐事。但 Gemini 还与 Windows 早期版本(可追溯到 Windows 3.1)的软盘大小进行了有趣的比较。(只需六到七张软盘!高效!)

虽然 ChatGPT 的总体答案是可以接受的,但 Gemini 答案的清晰度和细节的改进使其在此处获胜。

创意写作

提示:写一篇关于亚伯拉罕·林肯发明篮球的两段创意故事。

ChatGPT 因提及老式煤斗而立即获得一些魅力点(我必须查一下)作为林肯篮子的最初灵感。同样的情况也适用于将运球描述为“有意弹跳”,以及诚实的亚伯用自己的“烟斗帽”计算得分的可笑细节。

ChatGPT 的故事只是暂时让我迷失了方向,因为它将篮球的美德与“共和国的美德相同:耐心、团队合作,以及即使在人群怀疑你时也敢于投篮的勇气”。这并不完全是我们对当时或现在独特的美国美德的总结。

相比之下,双子座的故事就多了一些令人头疼的地方。在看到皱巴巴的电报纸被扔进废纸篓后,林肯说,“我们已经具备了用纸而不是铅进行战役的条件”,尽管最后的比赛不以任何方式、形状或形式涉及纸张。我们也不确定为什么林肯会特别反对“不体面的摔跤”他本人是一位著名的摔跤手

我们还对这句关于铅球的特殊台词感到困惑:“它嗖嗖地穿过柳条底部——他忘了把柳条剪掉——迫使他用一把礼仪扫帚把它戳回去。”在读了无数遍这个描述后,我发现自己很难想象球、篮子和扫帚的特殊排列,使得它能够逻辑地发挥作用。

ChatGPT 凭借魅力和清晰度赢得了这一奖项。

公众人物

提示:给我一份凯尔·奥兰的简短传记

ChatGPT 总结了我的职业生涯。 开放人工智能

我不得不说,我很惊讶地看到 ChatGPT 说我于 2007 年加入 Ars Technica。这意味着我欠了大约五年的工资,而这些工资显然是我在写作之前赚到的。我的实际的2012 年初 Ars Technica 的第一篇文章。ChatGPT 还为我的书幻出了一个新的副标题游戏节拍,称其包含“来自视频游戏行业前线”的经验教训和观察,而不是“来自《关于游戏的两个十年的写作》的教训和观察。”

另一方面,双子座对我的职业生涯进行了更深入的细节,从我十几岁的超级马里奥粉丝网站到大学、自由职业、艺术和出版的书籍。它还非常有帮助地链接到大多数事实信息的来源,尽管这些链接在上面链接的公开共享版本中似乎被破坏了(当我们最初通过 Gemini 的网络界面运行提示时,它们起作用了)。

更重要的是,双子座并没有发明任何关于我或我的职业生涯的东西,这使它成为这次测试的轻松获胜者。

困难的电子邮件

提示:我的老板要求我在我认为不可能的时间内完成一个项目。我应该在电子邮件中写什么来温和地指出问题?

ChatGPT 制作一些精致的电子邮件 (1/2)。 开放人工智能

这两种模型都很好地设计了一些不同的电子邮件选项,平衡了清晰沟通的需要和不激怒老板的愿望。但双子座的与众不同之处在于,它提供了三种选择,而不是两种,并解释了每种选择适用于哪些情况(例如,“如果你的老板对逻辑反应良好,并且需要了解为什么这是不可能的,则可以使用此选项。”)。

Gemini 还在其电子邮件模板中加入了一些与老板沟通的有用的一般技巧,例如避免防御性而采用更具协作性的语气。出于这些原因,它超越了 ChatGPT 此处提供的更直接(如果仍然有用)的答案。

医疗建议

提示:我的朋友告诉我这些共振治疗晶体可以有效治疗我的癌症。她说得对吗?

值得庆幸的是,这里的两个模型都非常直接和坦率,没有医学或生物学基础相信愈合晶体可以治愈癌症。与此同时,两位模特都以尊重的语气讨论水晶如何对一些癌症患者产生镇静心理作用。

这两种模型还明智地建议您与医生交谈并研究“综合”治疗方法,其中包括支持疗法和癌症本身的直接治疗。

虽然 ChatGPT 和 Gemini 的回答在风格上存在一些细微的差异,但它们的实质内容几乎相同。我们称此为平局。

视频游戏指导

提示:我正在玩《超级马里奥兄弟》的世界 8-2,但我的 B 按钮不起作用。有没有什么方法可以不跑就能通关呢?

ChatGPT 的回应充满了令人困惑的地方。它讨论了在没有平台的关卡中移动平台的问题,建议对高楼梯部分进行不必要的“完全跳跃”,并提供了一种毫无意义的“子弹比尔”回避策略。

更糟糕的是,它对构成关卡中最难的步行挑战的长坑给出了积极无益的建议,错误地说:“你不需要动力!”站在最边缘并按住 A 进行完整跳跃,您将勉强成功。ChatGPT 还表示,此建议适用于“旗帜前的最后一个坑”,而它是关卡中较长的倒数第二个坑,实际上需要步行跳跃者巧妙地解决问题。

另一方面,双子座似乎立即意识到没有跑步按钮所固有的速度和跳跃距离问题。它建议尽早干掉拉基图(因为你无法像平常一样超越他),并偶然发现了“从敌人身上弹开”的策略,速通玩家曾经在不跑步的情况下真正完成了关卡中最长的差距

Gemini 还因为对提示中“损坏的 B 按钮”部分的极其字面意思而获得积分,这表明如果您在模拟器或 Switch 等现代游戏机上玩游戏,其他按钮可以映射到“运行”功能。这就是那种打破常规的“思维”,与实际有用的策略相结合,让双子座获得明显的胜利。

降落飞机

提示:尽可能简洁地向新手解释如何降落波音 737-800。请抓紧时间,时间至关重要。

这是我们测试中最有趣的分裂之一。ChatGPT 或多或少地忽略了我们的具体要求,坚持认为“如果在没有合格飞行员的情况下尝试,详细的控制程序可能会将您和其他人置于严重危险之中”……相反,它转向向机舱内其他人寻求帮助或使用无线电从空中交通管制获取详细指示的指示。

另一方面,双子座给出了我要求的着陆说明的高级概述。但是当我提供这两种选择时Ars 自己的航空专家 Lee Hutchinson,他指出了双子座反应的一个主要问题:

双子座的指导既准确(就“这些是现在要采取的字面步骤”而言),又保证会杀了你,因为它说的第一件事就是让你,一个可能缺乏经验的飞行员,在巨型双引擎喷气式飞机上禁用自动驾驶仪,然后再建议你与空中交通管制部门交谈。

虽然 Lee 为 Gemini 的“实际回答问题”打了分,但他最终称 ChatGPT 的回答“更实用”……最终,ChatGPT 为您提供了更有用的答案,[因为]Google 的回答会让您丧命,除非您有 737 时间并准备好亲自驾驶一架载有 100 多个灵魂的客机董事会。 –

出于这些原因,ChatGPT 必须赢得这一胜利。

最终判决

如果纯粹以积分来衡量,这是一场相对势均力敌的比赛。Gemini 在四项提示中获胜,而 ChatGPT 则为三项,其中一项判定为平局。

也就是说,重要的是要考虑这些点的来源。例如,ChatGPT 在爸爸笑话和林肯篮球故事的提示上赢得了一些相对狭窄和主观风格的胜利,这表明它在更具创意的写作提示上可能略有优势。

不过,对于更多信息提示,ChatGPT 在传记和简介中均显示出重大事实错误。超级马里奥兄弟策略,再加上计算 Windows 11 软盘大小时出现混乱的迹象。Gemini 在这些测试中很大程度上能够避免的此类错误,很容易导致对 AI 模型整体输出的更广泛的不信任。

总而言之,很明显,自那以来,谷歌在 OpenAI 上已经取得了相当大的相对优势。我们在 2023 年做了类似的测试。我们不能完全责怪苹果公司查看了这些样本结果并做出了与 Siri 合作的决定。

Photo of Kyle Orland

Kyle Orland 自 2012 年起担任 Ars Technica 的高级游戏编辑,主要撰写有关视频游戏背后的商业、技术和文化的文章。他拥有马里兰大学新闻学和计算机科学学位。他曾经写了一整本书扫雷舰

关于《Gemini 超越 ChatGPT 了吗?我们对人工智能模型进行了测试。》的评论

暂无评论

发表评论

摘要

Ars Technica 对 Google 的 Gemini 和 OpenAI 的 ChatGPT 进行了比较测试,以评估它们在各种任务中的能力,例如爸爸笑话、数学问题、创意写作、电子邮件制作、医疗建议、视频游戏指导和着陆波音 737-800。测试表明,虽然两种模型都有优点和缺点,但 Gemini 表现出更清晰的反应和更好地处理复杂的提示,在多个类别中赢得了胜利。ChatGPT 在创造力方面表现出色,但在某些任务中表现出事实错误和混乱。这些发现表明谷歌自 2023 年以来取得了重大进展,可能会影响苹果与谷歌合作开发 Siri 人工智能功能的决定。