英语轻松读发新版了,欢迎下载、更新

2025年编码的最佳AI(包括新的获胜者 - 以及不使用什么)

2025-06-09 08:18:00 英文原文

作者:Written by

code
photo_pawel/getty图像

我在技术周围的时间足够长,几乎没有使我兴奋,甚至让我感到惊讶。但是不久之后 Openai的Chatgpt是发布,我问了 为我妻子的电子商务网站编写WordPress插件。当它这样做并且插件工作时,我确实感到惊讶。

那是我对聊天机器人和AI辅助编程的深入探索的开始。从那以后,我对14个大型语言模型(LLM)进行了4个现实世界测试。

还:苹果的秘密调味料正是AI缺少的

不幸的是,并非所有聊天机器人都可以编码。自第一次测试以来已经两年多了,即使是现在,我测试的13个LLM中的四个也无法创建工作插件。

简短版本

在本文中,我将向您展示每个LLM的表现 我的测试。我建议您使用五个聊天机器人。 

其中两个是Chatgpt Plus和Cllexity Pro,每月售价20美元。同一聊天机器人的免费版本做得很好,您可能无需付款就可以通过。另外两种推荐产品来自Google和Microsoft。Google的双子座Pro 2.5是免费的,但是您仅限于很少的疑问,以至于您不付款就无法使用它。 

另外: 我测试了10个AI内容探测器 - 每次都正确识别了AI文本

微软拥有多个副驾驶许可证,这可能会变得昂贵,但是我使用的是免费版本,结果出乎意料。最后一个是克劳德4十四行诗,是克劳德的免费版本。奇怪的是,免费版本击败了付费版本,因此我们不建议Claude 4 Opus。

但是其余的,无论是免费的还是付费的,都不是那么好。我不会冒险与他们一起编程项目,也不会建议您这样做,直到他们的性能提高为止。

我写了很多关于 使用AIS帮助编程。除非它是一个小型,简单的项目,例如我妻子的插件,否则AIS无法编写整个应用程序或程序。但是他们擅长编写几行,并且在修复代码方面还不错。

与其重复我写的所有内容,不如继续阅读这篇文章: 如何使用chatgpt编写代码

如果您想了解我的编码测试,为什么我选择了它们以及为什么它们与13个LLM的评论相关,请阅读本文: 我如何测试AI聊天机器人的编码能力

AI编码排行榜

让我们从比较聊天机器人的表现开始,从我们最好的综述开始时:

ai-comparison-001
David Gewirtz/Zdnet

接下来,让我们单独查看每个聊天机器人。我要讨论14个聊天机器人,因为我们将Claude 4十四行诗和Claude 4 Opus作为单独的测试分开。GPT-4不再包括在内,因为Openai降落了该LLM。准备好?我们走吧。

优点

  • 通过了所有测试
  • 固体编码结果
  • Mac应用程序

缺点

  • 幻觉
  • 还没有Windows应用程序
  • 有时不合作
  • 价格:$ 20/mo
  • LLM:GPT-4O,GPT-3.5
  • 桌面浏览器接口:是
  • 专用Mac应用程序:是
  • 专用Windows应用程序:否
  • 多因素身份验证:是的
  • 测试通过:4中的4个

Chatgpt PlusGPT-4O通过了我所有的测试。我最喜欢的功能之一是专用应用程序的可用性。当我测试Web编程时,我将浏览器设置在一件事上,我的IDE打开和 chatgpt Mac应用在单独的屏幕上运行。

另外: 我将gpt -4O通过编码测试进行了,它使它们呈现 - 除了一个奇怪的结果

此外,Logitech的及时建筑商可以通过鼠标按钮激活该按钮,可以设置以利用升级的GPT-4Oâ€并连接到您的OpenAI帐户,从而可以简单的拇指点击运行提示,这非常方便。

我唯一不喜欢的是,我的GPT-4O测试之一导致了双重选择的答案,其中一个答案是错误的。我宁愿给我正确的答案。即便如此,快速测试确认了哪些答案可以起作用。但是,这个问题有些烦人。 

优点

  • 多个LLM
  • 显示搜索标准
  • 好采购

缺点

  • 仅电子邮件登录
  • 没有桌面应用
  • 价格:$ 20/mo
  • LLM:GPT-4O,Claude 3.5十四行诗,声纳大,Claude 3 Opus,Llama 3.1 405b
  • 桌面浏览器接口:是
  • 专用Mac应用程序:否
  • 专用Windows应用程序:否
  • 多因素身份验证:否
  • 测试通过:4中的4个

我认真考虑了列表 困惑Pro作为用于编码的最佳总体AI聊天机器人,但一个失败使它脱离了顶级:您如何登录。《困惑》不使用用户名/密码或passkey,并且没有多因素身份验证。该工具所做的就是通过电子邮件将登录引脚发送给您。AI没有单独的桌面应用程序,就像Chatgpt为Mac所做的那样。

与其他工具不同的是,它使人难忘的是它可以运行多个LLM。虽然您无法为给定的会话设置LLM,但您可以轻松进入设置并选择活动模型。

另外: 困惑Pro可以帮助您编码吗?它采用了我的编程测试 - 感谢GPT -4

对于编程,您可能需要坚持使用GPT-4O,因为该模型对我们的所有测试进行了处理。但是,在不同的LLM上交叉检查代码可能很有趣。例如,如果您的GPT-4O编写一些正则表达式代码,则可以考虑切换到其他LLM,以查看该模型对生成的代码的看法。

如下所示,大多数LLM都是不可靠的,因此请勿将结果视为福音。但是,您可以使用结果检查您的原始代码。这有点像AI驱动的代码评论。

只是不要忘记切换回GPT-4O。

  • 价格:免费使用,然后是基于令牌的定价
  • LLM:双子座Pro 2.5
  • 桌面浏览器接口:是
  • 专用Mac应用程序:否
  • 专用Windows应用程序:否
  • 多因素身份验证:是的
  • 测试通过:4中的4个

我上次看双子座时,它失败了。当时不如副驾驶那样糟糕,但是很糟糕。但是,Gemini Pro 2.5的表现非常令人钦佩。我唯一真正的问题是访问。我发现自己仅在四个测试中的两项进行后就与免费版本隔绝了。

还:Gemini Pro 2.5是一个能力惊人的编码助手 - 也是对Chatgpt的巨大威胁

我等了一天,然后进行了第三次测试,然后再次被切断。最后,在第三天,我进行了第四次测试。显然,如果您只能在关闭之前提出一个或两个问题,则不能执行任何真正的编程。因此,如果您与Gemini Pro 2.5注册,请注意Google代币收费(基本上,您使用的AI量)。这可能使预测您的费用变得非常困难。

显示更多

  • 价格:免费的基本副本或其他副驾驶许可的费用
  • LLM:未公开
  • 桌面浏览器接口:是
  • 专用Mac应用程序:否
  • 专用Windows应用程序:否
  • 多因素身份验证:是的
  • 测试通过:4中的4个

在我以前对Microsoft Copilot的所有分析中,结果是LLM的最差。副驾驶得到了没有什么正确的。真是太糟糕了。但是我然后说:“一件事是微软 总是从错误中学习。因此,我稍后再检查一下,看看此结果是否有所改善。”

还:我在2025年重新测试了Microsoft Copilot的AI编码技巧

男孩,永远做到了。这次,微软通过了我的所有四项测试。更好的是,它使用免费版本的副副词来完成。是的,微软有许多副本的付费计划,但是如果您想给它AI旋转,请自己指出副驾驶并使用它。显示更多

价格:免费

  • LLM:克劳德4
  • 桌面浏览器接口:否
  • 专用Mac应用程序:否
  • 专用Windows应用程序:否
  • 多因素身份验证:是的
  • 测试通过:4中的4个
  • 这是AI实现可能是真正的头部抓手的时候之一。

在我们以前的测试中,克劳德4十四行诗在枪管的底部完成,使我们所有四个测试都未能进行。但是,这次,十四行诗通过了所有测试。那么,头抓手是什么?Claude 4型号Opus是收费版本,但没有很好:它的一半测试失败了。

还:Anthropic的免费Claude 4 SONNET对我的编码测试进行了付出

所以,是的。免费版本像冠军一样工作。根据计划,您每月支付的费用为20到250美元?好吧,那一半的测试失败了。去数字。

显示更多

优点

  • LLM与Chatgpt不同
  • 很好的描述
  • 免费访问

缺点

  • 仅在浏览器模式下可用
  • 免费访问可能只临时
  • 价格:免费(目前)
  • LLM:Grok-1
  • 桌面浏览器接口:是
  • 专用Mac应用程序:否
  • 专用Windows应用程序:否
  • 多因素身份验证:是的
  • 测试通过:4中的3个

我不得不说,格罗克让我感到惊讶。我想我对出现在以前被称为Twitter的社交网络上的LLM寄予厚望。然而,X现在由Elon Musk拥有,以及马斯克的两家公司特斯拉和SpaceX具有高耸的AI功能。

目前尚不清楚Grok中有多少Tesla和SpaceX AI DNA,但我们可以假设可能会有更多的工作。截至目前,Grok是唯一不基于OpenAI LLM的LLM,将其纳入了推荐列表。

另外: X的Grok在我的AI编码测试中表现出色

Grok确实犯了一个错误,但这是一个相对较小的错误,一个更全面的提示很容易解决。是的,它未能通过测试。但是,通过使其他人甚至在它通过的那一份工作中做出了几乎完美的工作,Grok赢得了竞争者的位置。

敬请关注。这是一个值得关注的人工智能。

优点

  • 自由的
  • 通过了大多数测试

缺点

  • 提示节流
  • 可以在您从事的任何事情中切断您
  • 价格:免费
  • LLM:GPT-4O,GPT-3.5
  • 桌面浏览器接口:是
  • 专用Mac应用程序:是
  • 专用Windows应用程序:否
  • 多因素身份验证:是的
  • 通过:GPT-3.5模式下4个中的3个中的3个

chatgpt任何人都可以免费使用。虽然Plus和Free版本都支持通过我所有编程测试的GPT-4O,但免费应用程序有限制。

Openai将免费的Chatgpt用户视为便宜的座位。如果流量很高或服务器很忙,则免费版ChatGpt的免费版本只会使GPT-3.5可供自由用户使用。该工具只会允许您在降级或关闭您的查询之前进行一定数量的查询。

还:如何使用chatgpt编写代码 - 以及我最喜欢的技巧来调试其生成的内容

我有几次免费版的Chatgpt有效地告诉我,我问了太多问题。

Chatgpt是一个很棒的工具,只要您不介意它关闭即可。即使是GPT-3.5在测试中的表现都比所有其他聊天机器人都更好,而且它失败的测试是用于由澳大利亚孤独程序员生产的相当模糊的编程工具。

因此,如果预算对您很重要,并且可以在切断时等待,请免费使用Chatgpt。

优点

  • 自由的
  • 通过了大多数测试
  • 研究工具范围

缺点

  • 限于GPT-3.5
  • 油门提示结果
  • 价格:免费
  • LLM:GPT-3.5
  • 桌面浏览器接口:是
  • 专用Mac应用程序:否
  • 专用Windows应用程序:否
  • 多因素身份验证:否
  • 测试通过:4中的3个

我在这里穿了一根非常细的针,但是 困惑ai'S免费版本基于GPT-3.5,测试结果比其他AI聊天机器人好。

另外: 我更喜欢困惑而不是其他AI聊天机器人的5个原因

从编程的角度来看,这几乎是整个故事。但是,从研究和组织的角度来看,我的ZDNET同事史蒂文·沃恩·尼科尔斯(Steven Vaughan-Nichols) 更喜欢困惑在另一个AI上。

他喜欢困惑如何为研究问题提供更多完整的资源,引用其来源,组织答复,并提供进一步搜索的问题。

因此,如果您正在编程,但也从事其他研究,请考虑自由版的困惑。

优点

  • 自由的
  • 开源
  • 有效的资源利用

缺点

  • 薄弱的一般知识
  • 小生态系统
  • 有限的集成
  • 价格:免费聊天机器人,API的费用
  • LLM:DeepSeek Moe
  • 桌面浏览器接口:是
  • 专用Mac应用程序:否
  • 专用Windows应用程序:否
  • 多因素身份验证:否
  • 测试通过:4中的3个

虽然DeepSeek R1是来自中国的新推理,它拥有所有专家,但目前的真正力量(至少根据我们的测试)是DeepSeek V3。该聊天机器人几乎通过了我们所有的编码测试,以及(现在大部分停止)ChatGpt 3.5进行了。

另外: 我测试了DeepSeek的R1和V3编码技巧 - 我们还没有注定要失败

DeepSeek V3下降的地方知识更加晦涩难懂。尽管如此,它还是击败了Google的Gemini,Microsoft的Copilot和Meta的Meta AI,这是一个很大的成就。我们将密切关注每个DeepSeek模型,因此请继续关注。

聊天机器人要避免进行编程帮助

我测试了13个LLM,这次通过了我的大部分测试。其他聊天机器人,包括一些非常适合编程的聊天机器人,只通过了我的一个测试。

另外: 人们提示AI时犯的五个最大错误

我在这里提到它们,因为人们会问,我确实对它们进行了彻底的测试。这些机器人中的一些适用于其他工作,因此,如果您对它们的功能感到好奇,我将指出他们的一般评论。

DeepSeek R1

ai-comparison-008
David Gewirtz/Zdnet

与DeepSeek V3不同,高级推理版本DeepSeek R1并未在我们的编程测试中展示其推理功能。不寻常的是,即使对于基本的AI,我们的字符串功能测试的正则表达式代码,新的故障领域也不是那么困难。一个 

还:科技先知玛丽·米克(Mary Meeker)刚刚放弃了有关AI趋势的大规模报告 - 这是您的TL;

但这就是为什么我们正在进行这些现实世界测试的原因。目前尚不清楚AI会在哪里幻觉或完全失败。到目前为止,虽然我对产品的资源利用率得到了深刻的印象和产品的开源性,但其编码质量输出并不一致。

github副标士

ai-comparison-005
David Gewirtz/Zdnet

Github的副驾驶与VS代码无缝集成。AI使要求进行编码有帮助,尤其是在上下文中工作时。这就是为什么它如此令人失望的原因,以至于AI输出通常是非常错误的。

还:我将Github Copilot的AI放在测试中 - 在编写代码时可能很糟糕

我不能很好地良心,建议您使用github副副扩展作为VS代码。我担心诱惑将太大,无法在没有足够测试的情况下插入代码块 - 而Github Copilot的生产代码还没有准备好生产使用。明年再试一次。

Claude 4 Opus

ai-comparison-008
David Gewirtz/Zdnet

在完全令人困惑的事件转折中,Claude 4模型Opus的付费版本失败了我的一半测试。这一结果令人困惑的是,免费版本Claude 4十四行诗通过了所有版本。我不知道该说些什么,除了AI外,可能会很奇怪。

还:Anthropic的免费Claude 4 SONNET对我的编码测试进行了付出

meta ai

ai-comparison-006
David Gewirtz/Zdnet

meta ai是Facebook的通用AI。如上所述,它未通过我们的四个测试中的三个。” 

还:15种AI在2024年为我节省了时间 - 我计划如何在2025年使用它

AI生成了一个不错的用户界面,但功能为零。它还发现了我烦人的错误,这是一个相当严重的挑战。鉴于找到错误所需的特定知识,我惊讶地发现AI在简单的正则表达挑战中cho住了。但这确实如此。

元代码骆驼

ai-comparison-007
David Gewirtz/Zdnet

元代码骆驼是Facebook的AI明确设计用于编码帮助。您可以下载并安装在服务器上。我测试了在A上运行的AI拥抱脸实例。

另外: 元AI可以代码吗?我对骆驼,双子座和chatgpt进行了测试 - 甚至还没有接近

奇怪的是,即使Meta AI和Meta Code Llama都在我的四项测试中cho住,但它们还是在不同的问题上cho住了。AIS不能指望两次给出相同的答案,但这是一个惊喜。我们将看看这是否会随着时间的流逝而改变。

但是我喜欢[在此处插入名称]。这是否意味着我必须使用其他聊天机器人?

可能不是。我将测试限制在日常编程任务中。没有一个机器人像海盗一样说话,写散文或画一张图片。以同样的方式,我们使用不同的生产力工具来完成特定的任务,可以随意选择帮助您完成手头任务的AI。

唯一的问题是,如果您有预算,并且正在为Pro版本付费。然后,找到可以完成大部分您想要的AI,因此您不必为太多的AI附加组件付费。

这只是时间问题

我的测试结果令人惊讶,特别是考虑到Microsoft和Google的重大改进。但是,这一创新领域是以经线速度改善,因此,随着时间的推移,我们将返回更新的测试和结果。敬请关注。

您是否使用过这些AI聊天机器人进行编程?您的经验是什么?在下面的评论中让我们知道。


您可以在社交媒体上关注我的日常项目更新。确保订阅我的每周更新时事通讯,并在Twitter/X上关注我@davidgewirtz,在Facebook上facebook.com/davidgewirtz,在Instagram上instagram.com/davidgewirtz,在YouTube上youtube.com/davidgewirtztv。.

关于《2025年编码的最佳AI(包括新的获胜者 - 以及不使用什么)》的评论


暂无评论

发表评论

摘要

您针对编程任务的AI聊天机器人的详细细分非常有见地。这是一个摘要,突出了关键点:###推荐用于编程的聊天机器人:1。** chatgpt(免费&Plus版本)** - 通过了大多数测试,尤其是在GPT-4模式下。 - 提供有关查询的限制不同的免费和付费版本。2。**困惑AI(免费版本)** - 基于GPT-3.5,在编码任务方面表现良好。 - 也适用于研究和组织的目的。3。** DeepSeek V3(免费版本)** - 开源和有效的资源利用率。 - 通过了几乎所有测试,与停产的Chatgpt 3.5版本相当。4。** x的grok(免费版)** - 尽管最初怀疑,但它的表现令人惊讶。 - 通过大多数测试,值得关注未来的改进。###聊天机器人要避免:1。** DeepSeek R1 ** - 尽管被吹捧为高级推理AI,但在正则表达式代码生成中失败。2。** GitHub Copilot(VS代码扩展)** - 与VS代码无缝集成,但通常会生成错误或未经测试的代码。3。** Claude 4 Opus(付费版本)** - 令人困惑的是,一半的测试失败了,而其自由对应物通过了所有测试。4。 - 尽管设计专门设计用于编程任务,但在四个编码挑战中都失败了。###关键要点: - AI聊天机器人的质量和可靠性正在迅速发展,最近从Microsoft和Google那里看到了重大改进。 - 必须在依靠它执行关键编程任务之前彻底测试任何新工具。 - 注重预算意识的用户应该找到一个AI,可以在不需要多个订阅的情况下完成他们所需的大部分内容。###未来前景: - 鉴于该领域的发展速度迅速,必须进行连续测试以跟上不同平台之间的改进和变化。 - 鼓励用户分享自己的经验有助于对哪种工具最适合特定用例有了全面的了解。您是否想添加任何其他见解或讨论AI聊天机器人中的进一步发展?