我们请了四位人工智能编码代理来重建扫雷——结果是爆炸性的

四位现代法学硕士如何重新创建简单的 Windows 游戏经典？

哪些地雷是我的，哪些是AI的？信用：奥里希·劳森 |盖蒂图片社

使用人工智能帮助计算机编程的想法已经成为一个有争议的问题。一方面，编码代理可以使可怕的错误需要大量低效的人为监督修复，导致许多开发人员完全失去对这个概念的信任。另一方面，一些程序员坚持认为人工智能编码代理可以成为强大的工具前沿模型是快点得到更好以克服过去一些常见问题的方式进行编码。

为了了解这些现代人工智能编码工具的有效性，我们决定通过一个简单的任务来测试四个主要模型：重新创建经典的 Windows 游戏扫雷舰。由于像法学硕士这样的模式匹配系统相对容易地利用现有代码来重新创建著名的游戏，因此我们还添加了一个新颖的曲线球。

我们简单的提示：

制作一个功能齐全的网页版扫雷，其音效

1) 复制标准 Windows 游戏并
2）实现了惊喜、有趣的游戏功能。

包括移动触摸屏支持。

Ars 高级 AI 编辑 Benj Edwards 将这项任务交给四个带有终端（命令行）应用程序的 AI 编码代理：OpenAI –s法典基于 GPT-5、Anthropic™克劳德·科德与 Opus 4.5、Google 一起使用双子座命令行界面, 和米斯特拉尔氛围。然后，代理在“监督”人工智能模型的指导下，直接在本地计算机上操作 HTML 和脚本文件，该模型解释提示并将编码任务分配给可以使用软件工具执行指令的并行法学硕士。所有人工智能计划都是私下支付的，相关公司没有给予特殊或特权访问权限，而且这些公司并不知道这些测试的发生。

Ars 高级游戏编辑（和扫雷舰专家）然后凯尔·奥兰（Kyle Orland）盲目地判断了每个例子，不知道哪个模型生成了哪个扫雷舰克隆。下面是一些有些主观和不严格的结果。

在本次测试中，我们在“单次”结果中使用了每个 AI 模型的未修改代码，以了解这些工具在没有任何人工调试的情况下的表现如何。在现实世界中，最复杂的人工智能生成的代码将至少经过人类软件工程师一定程度的审查和调整，他们可以发现问题并解决效率低下的问题。

我们选择这个测试作为当前人工智能编码状态的一种简单的中间立场。克隆扫雷舰这不是一个只需几行代码即可完成的微不足道的任务，但它也不是一个需要许多互锁移动部件的极其复杂的系统。

扫雷舰也是一款家喻户晓的游戏许多� 版本通过互联网记录。这应该为这些人工智能代理提供充足的原材料来工作，并且比完全新颖的程序想法更容易让我们评估。与此同时，我们对新的“有趣”功能的开放式请求有助于展示每个代理对无指导编码的偏好（创造力），以及他们在既定游戏概念之上创建新功能的能力。

排除了所有这些清嗓子之后，以下是我们对人工智能生成的评估扫雷舰克隆，并附有您可以自己玩的链接。

特工 1：米斯特拉尔氛围

自己玩一下

马上，这个版本就会因为没有实现而扣分

和弦– 先进的技术扫雷舰玩家可以快速清除已经有足够标记地雷的数字周围的所有剩余空间。如果没有这个功能，这个版本玩起来会感觉有点笨拙。

我还对其中似乎没有任何作用的“自定义”难度按钮感到有点困惑。就好像该模型意识到定制电路板尺寸是一个问题扫雷舰但无法弄清楚如何实现这个相对基本的功能。

该游戏在移动设备上运行良好，但用旗帜标记一个方块需要在一个小方块上进行棘手的长按，这也会触发难以清除的选择器手柄。因此它不是一个理想的移动界面。

介绍

这是我们测试的唯一不包含音效的工作版本。这很公平，因为最初的 Windows扫雷舰也不包括声音，但这仍然是一个值得注意的相对遗漏，因为提示特别要求它。

与双方都熟悉的亮黄色版本相比，用于开始游戏的全黑“笑脸”按钮也有点令人反感扫雷舰全球玩家和表情符号用户。虽然单击该笑脸时确实会开始新游戏，但由于某种原因，还有一个多余的“新游戏”按钮占用了空间。

– 有趣 – 功能

我在这里发现的最“有趣”的新功能是当我完成游戏时，游戏在网格上添加了彩虹背景图案。虽然这确实为一款成功的游戏增添了一些奇思妙想，但我的期望更高一些。

编码经验

Benj 指出，尽管缺乏其他竞争者的大笔资金支持，但他对 Mistral Vibe 作为开放重量模型的表现感到惊喜。然而，它相对较慢（四个中第三快），而且结果并不好。最终，它迄今为止的表现表明，通过更多的时间和更多的训练，一个非常强大的人工智能编码代理可能最终会出现。

总体评分：4/10

这个版本的许多基础知识都正确，但遗漏了和弦，并且在小型演示和“有趣”方面表现不佳。

代理 2：OpenAI Codex

自己玩一下

该代理不仅包含重要的“和弦”功能，而且还包含在 PC 和移动浏览器上使用它的屏幕说明。

更让我印象深刻的是，在用旗帜标记方块时，可以循环使用“?”标记，这是一个深奥的功能，我什至觉得大多数人都觉得这是一个深奥的功能扫雷舰克隆者可能会错过。

在移动设备上，将手指放在正方形上以标记旗帜的选项是一个很好的触摸，这使得它成为我们测试过的最令人愉快的手持版本。

介绍

老式的表情符号笑脸按钮非常可爱，尤其是当你爆炸并得到一个红色的“X(”时。我对游戏场的“图形”不太印象深刻，它使用一个简单的“*”来表示暴露的地雷，用一个丑陋的红色“F”来表示标记的瓷砖。

嘟嘟嘟的声音效果让我想起了 80 年代末我的第一台老式 Sound Blaster 之前的电脑。这通常是一件好事，但我仍然很感激游戏给了我关闭它们的选项。

– 有趣 – 功能

用户界面一角列出的“惊喜：幸运大扫奖金”解释说，单击按钮可以为您提供免费的安全图块（如果可用）。当您被迫在两个同样可能是地雷的方块之间进行猜测的情况下，这可能非常有用。

不过，总的来说，我发现有点奇怪的是，只有在你单击一下找到一大片层叠的安全图块后，游戏才会给你这个奖励。它主要起到“赢得更多”按钮的作用，而不是提供风险与回报良好平衡的功能。

编码经验

OpenAI Codex 有一个漂亮的终端界面，具有与 Claude Code 类似的功能（本地命令、权限管理和显示进度的有趣动画），并且使用起来相当愉快（OpenAI 还通过 Web 界面提供 Codex，但我们在本次评估中没有使用它）。然而，Codex 编写功能性游戏的时间大约是 Claude Code 的两倍，这可能有助于取得如此出色的结果。

总体评分：9/10

和弦和可爱的演示风格的实现将其推到了列表的首位。我们只是希望“有趣”功能更有趣一点。

特工 3：人类克劳德·代码

自己玩一下

我们再一次得到了一个版本，它可以正确地完成所有游戏基础知识，但缺少真正高效的关键和弦功能

扫雷舰玩可能。这就像玩超级马里奥兄弟没有运行按钮或时之笛没有 Z 定位。一句话：无法接受。

该游戏移动版上的“旗帜模式”切换功能非常完善，但使用起来有点笨拙。在较大的游戏尺寸下，它还会在视觉上切断棋盘的一部分。

介绍

就演示而言，这可能是我们测试过的最精美的版本。从“脸”按钮使用可爱的表情符号到漂亮的炸弹和旗帜图形以及简单但有效的音效，这看起来比我们测试的其他版本更专业。

也就是说，存在一些奇怪的演示问题。例如，“初学者”网格的列之间有奇怪的间隙。每个方块和旗帜图形的边框也可能在某些地方变得奇怪的灰色，特别是在使用超级模式时（见下文）。

– 有趣 – 功能

右下角突出的“电源模式”按钮提供了一些非常有趣的电源，可以改变核心扫雷舰公式以有趣的方式。但实际的力量却有点碰运气。

我特别喜欢“盾牌”力量，它可以保护你免受错误的猜测，以及“爆炸”力量，它似乎可以保证无论你点击哪里，都会出现大量的显示瓷砖。但是，“X 射线”的力量可以在几秒钟内显示出每颗炸弹，很容易被快速玩家（或狡猾的屏幕截图）所利用。而且“冻结”功能相当无聊，只是让时钟停止几秒钟，相当于一点额外的时间。

总的来说，游戏像糖果一样提供这些新的力量，这使得即使是专家级的棋盘在力量模式激活的情况下也变得相对微不足道。只需选择“电源模式”似乎也会在您开始游戏后立即标记一些安全方块，使事情变得更加容易。因此，虽然这些能力可能“有趣”，但它们也感觉不是特别平衡。

编码经验

在四个测试模型中，使用 Opus 4.5 的 Claude Code 具有最令人愉悦的终端界面体验和最快的整体编码体验（Claude Code 也可以使用 Sonnet 4.5，速度更快，但结果并不像我们的体验中那么功能齐全）。虽然我们没有对每个模型进行精确计时，但 Opus 4.5 制作了一个可行的模型扫雷舰五分钟内。Codex 花费的时间至少是 Claude Code 的两倍甚至更长，而 Mistral 花费的时间大约是 Claude Code 的三到四倍。与此同时，双子座花了几个小时的修补才得到两个不起作用的结果。

总体：7/10

缺乏和弦是一个很大的遗漏，但强大的演示和强力模式选项给了这个努力一个还过得去的最终分数。

代理 4：Google Gemini CLI

自己玩一下

怨恨等Gemini CLI 确实给了我们一些可以单击的灰色框，但缺少操作区。

虽然与代理进行交互式故障排除可能已经解决了问题，但作为“一次性”测试，该模型完全失败了。

编码经验

在我们测试的四个编码代理中，Gemini CLI 给 Benj 带来的麻烦最多。制定计划后，生成任何可用代码的速度非常非常慢（每次尝试大约一个小时）。该模型似乎在尝试手动创建 WAV 文件音效时陷入困境，并坚持需要 React 外部库和其他一些过于复杂的依赖项。结果根本行不通。

Benj 实际上改变了规则，给了 Gemini 第二次机会，指定游戏应该使用 HTML5。当模型再次开始编写代码时，它也陷入了尝试制作声音效果的困境。Benj 建议使用 WebAudio 框架（其他 AI 编码代理似乎可以使用该框架），但结果不起作用，您可以在上面的链接中看到。

与测试的其他模型不同，Gemini CLI 显然使用了三种不同 LLM 的混合系统来执行不同的任务（Gemini 2.5 Flash Lite、2.5 Flash 和 2.5 Pro 在 Benj 付费的 Google 帐户级别上可用）。当您完成编码会话并退出 CLI 界面时，它会显示哪个模型执行了哪些操作。

在这种情况下，这并不重要，因为结果不起作用。但值得注意的是，Gemini 3 编码模型可用于其他订阅计划此处未进行测试。因此，对于 Google CLI，这部分测试可能被视为“不完整”。

总体：0/10（不完整）

最终判决

OpenAI Codex 在这一点上获胜，很大程度上是因为它是唯一包含和弦作为游戏选项的模型。但 Claude Code 还凭借强大的表现力和快速的生成时间而脱颖而出。Mistral Vibe 是一个重大的下降，而基于 Gemini 2.5 的 Google CLI 在我们的一次性测试中完全失败。

虽然经验丰富的编码员肯定可以通过与代理进行交互式、来回的代码编辑对话来获得更好的结果，但这些结果表明，即使在相对简单的任务上只有非常短的提示，其中一些模型的能力也很强。尽管如此，我们仍然认为，我们在其他项目中使用编码代理的总体经验（在以后的文章中将详细介绍）总体上强化了这样的想法：它们目前作为交互式工具的最佳功能是增强而不是取代人类技能。

Kyle Orland 自 2012 年起担任 Ars Technica 的高级游戏编辑，主要撰写有关视频游戏背后的商业、技术和文化的文章。他拥有马里兰大学新闻学和计算机科学学位。他曾经写了一整本书扫雷舰。

OC

我们请了四位人工智能编码代理来重建扫雷——结果是爆炸性的

特工 1：米斯特拉尔氛围

代理 2：OpenAI Codex

特工 3：人类克劳德·代码

代理 4：Google Gemini CLI

最终判决

关于《我们请了四位人工智能编码代理来重建扫雷——结果是爆炸性的》的评论

发表评论

摘要

相关新闻

相关讨论