作者:Written by
我在技术周围的时间足够长,几乎没有使我兴奋,甚至让我感到惊讶。但是不久之后 Openai的Chatgpt是发布,我问了 为我妻子的电子商务网站编写WordPress插件。当它这样做并且插件工作时,我确实感到惊讶。
那是我对聊天机器人和AI辅助编程的深入探索的开始。从那以后,我对14个大型语言模型(LLM)进行了4个现实世界测试。
不幸的是,并非所有聊天机器人都可以编码。自第一次测试以来已经两年多了,即使是现在,我测试的13个LLM中的四个也无法创建工作插件。
在本文中,我将向您展示每个LLM的表现 我的测试。我建议您使用五个聊天机器人。
其中两个是Chatgpt Plus和Cllexity Pro,每月售价20美元。同一聊天机器人的免费版本做得很好,您可能无需付款就可以通过。另外两种推荐产品来自Google和Microsoft。Google的双子座Pro 2.5是免费的,但是您仅限于很少的疑问,以至于您不付款就无法使用它。
另外: 我测试了10个AI内容探测器 - 每次都正确识别了AI文本
微软拥有多个副驾驶许可证,这可能会变得昂贵,但是我使用的是免费版本,结果出乎意料。最后一个是克劳德4十四行诗,是克劳德的免费版本。奇怪的是,免费版本击败了付费版本,因此我们不建议Claude 4 Opus。
但是其余的,无论是免费的还是付费的,都不是那么好。我不会冒险与他们一起编程项目,也不会建议您这样做,直到他们的性能提高为止。
我写了很多关于 使用AIS帮助编程。除非它是一个小型,简单的项目,例如我妻子的插件,否则AIS无法编写整个应用程序或程序。但是他们擅长编写几行,并且在修复代码方面还不错。
与其重复我写的所有内容,不如继续阅读这篇文章: 如何使用chatgpt编写代码。
如果您想了解我的编码测试,为什么我选择了它们以及为什么它们与13个LLM的评论相关,请阅读本文: 我如何测试AI聊天机器人的编码能力。
让我们从比较聊天机器人的表现开始,从我们最好的综述开始时:
接下来,让我们单独查看每个聊天机器人。我要讨论14个聊天机器人,因为我们将Claude 4十四行诗和Claude 4 Opus作为单独的测试分开。GPT-4不再包括在内,因为Openai降落了该LLM。准备好?我们走吧。
优点
缺点
Chatgpt Plus与GPT-4O通过了我所有的测试。我最喜欢的功能之一是专用应用程序的可用性。当我测试Web编程时,我将浏览器设置在一件事上,我的IDE打开和 chatgpt Mac应用在单独的屏幕上运行。
另外: 我将gpt -4O通过编码测试进行了,它使它们呈现 - 除了一个奇怪的结果
此外,Logitech的及时建筑商可以通过鼠标按钮激活该按钮,可以设置以利用升级的GPT-4Oâ€并连接到您的OpenAI帐户,从而可以简单的拇指点击运行提示,这非常方便。
我唯一不喜欢的是,我的GPT-4O测试之一导致了双重选择的答案,其中一个答案是错误的。我宁愿给我正确的答案。即便如此,快速测试确认了哪些答案可以起作用。但是,这个问题有些烦人。
优点
缺点
我认真考虑了列表 困惑Pro作为用于编码的最佳总体AI聊天机器人,但一个失败使它脱离了顶级:您如何登录。《困惑》不使用用户名/密码或passkey,并且没有多因素身份验证。该工具所做的就是通过电子邮件将登录引脚发送给您。AI没有单独的桌面应用程序,就像Chatgpt为Mac所做的那样。
与其他工具不同的是,它使人难忘的是它可以运行多个LLM。虽然您无法为给定的会话设置LLM,但您可以轻松进入设置并选择活动模型。
另外: 困惑Pro可以帮助您编码吗?它采用了我的编程测试 - 感谢GPT -4
对于编程,您可能需要坚持使用GPT-4O,因为该模型对我们的所有测试进行了处理。但是,在不同的LLM上交叉检查代码可能很有趣。例如,如果您的GPT-4O编写一些正则表达式代码,则可以考虑切换到其他LLM,以查看该模型对生成的代码的看法。
如下所示,大多数LLM都是不可靠的,因此请勿将结果视为福音。但是,您可以使用结果检查您的原始代码。这有点像AI驱动的代码评论。
只是不要忘记切换回GPT-4O。
我上次看双子座时,它失败了。当时不如副驾驶那样糟糕,但是很糟糕。但是,Gemini Pro 2.5的表现非常令人钦佩。我唯一真正的问题是访问。我发现自己仅在四个测试中的两项进行后就与免费版本隔绝了。
还:Gemini Pro 2.5是一个能力惊人的编码助手 - 也是对Chatgpt的巨大威胁
我等了一天,然后进行了第三次测试,然后再次被切断。最后,在第三天,我进行了第四次测试。显然,如果您只能在关闭之前提出一个或两个问题,则不能执行任何真正的编程。因此,如果您与Gemini Pro 2.5注册,请注意Google代币收费(基本上,您使用的AI量)。这可能使预测您的费用变得非常困难。
在我以前对Microsoft Copilot的所有分析中,结果是LLM的最差。副驾驶得到了没有什么正确的。真是太糟糕了。但是我然后说:“一件事是微软 总是从错误中学习。因此,我稍后再检查一下,看看此结果是否有所改善。”
还:我在2025年重新测试了Microsoft Copilot的AI编码技巧
男孩,永远做到了。这次,微软通过了我的所有四项测试。更好的是,它使用免费版本的副副词来完成。是的,微软有许多副本的付费计划,但是如果您想给它AI旋转,请自己指出副驾驶并使用它。显示更多
在我们以前的测试中,克劳德4十四行诗在枪管的底部完成,使我们所有四个测试都未能进行。但是,这次,十四行诗通过了所有测试。那么,头抓手是什么?Claude 4型号Opus是收费版本,但没有很好:它的一半测试失败了。
还:Anthropic的免费Claude 4 SONNET对我的编码测试进行了付出
所以,是的。免费版本像冠军一样工作。根据计划,您每月支付的费用为20到250美元?好吧,那一半的测试失败了。去数字。
优点
缺点
我不得不说,格罗克让我感到惊讶。我想我对出现在以前被称为Twitter的社交网络上的LLM寄予厚望。然而,X现在由Elon Musk拥有,以及马斯克的两家公司特斯拉和SpaceX具有高耸的AI功能。
目前尚不清楚Grok中有多少Tesla和SpaceX AI DNA,但我们可以假设可能会有更多的工作。截至目前,Grok是唯一不基于OpenAI LLM的LLM,将其纳入了推荐列表。
Grok确实犯了一个错误,但这是一个相对较小的错误,一个更全面的提示很容易解决。是的,它未能通过测试。但是,通过使其他人甚至在它通过的那一份工作中做出了几乎完美的工作,Grok赢得了竞争者的位置。
敬请关注。这是一个值得关注的人工智能。
优点
缺点
chatgpt任何人都可以免费使用。虽然Plus和Free版本都支持通过我所有编程测试的GPT-4O,但免费应用程序有限制。
Openai将免费的Chatgpt用户视为便宜的座位。如果流量很高或服务器很忙,则免费版ChatGpt的免费版本只会使GPT-3.5可供自由用户使用。该工具只会允许您在降级或关闭您的查询之前进行一定数量的查询。
还:如何使用chatgpt编写代码 - 以及我最喜欢的技巧来调试其生成的内容
我有几次免费版的Chatgpt有效地告诉我,我问了太多问题。
Chatgpt是一个很棒的工具,只要您不介意它关闭即可。即使是GPT-3.5在测试中的表现都比所有其他聊天机器人都更好,而且它失败的测试是用于由澳大利亚孤独程序员生产的相当模糊的编程工具。
因此,如果预算对您很重要,并且可以在切断时等待,请免费使用Chatgpt。
优点
缺点
优点
缺点
虽然DeepSeek R1是来自中国的新推理,它拥有所有专家,但目前的真正力量(至少根据我们的测试)是DeepSeek V3。该聊天机器人几乎通过了我们所有的编码测试,以及(现在大部分停止)ChatGpt 3.5进行了。
另外: 我测试了DeepSeek的R1和V3编码技巧 - 我们还没有注定要失败
DeepSeek V3下降的地方知识更加晦涩难懂。尽管如此,它还是击败了Google的Gemini,Microsoft的Copilot和Meta的Meta AI,这是一个很大的成就。我们将密切关注每个DeepSeek模型,因此请继续关注。
我测试了13个LLM,这次通过了我的大部分测试。其他聊天机器人,包括一些非常适合编程的聊天机器人,只通过了我的一个测试。
另外: 人们提示AI时犯的五个最大错误
我在这里提到它们,因为人们会问,我确实对它们进行了彻底的测试。这些机器人中的一些适用于其他工作,因此,如果您对它们的功能感到好奇,我将指出他们的一般评论。
与DeepSeek V3不同,高级推理版本DeepSeek R1并未在我们的编程测试中展示其推理功能。不寻常的是,即使对于基本的AI,我们的字符串功能测试的正则表达式代码,新的故障领域也不是那么困难。一个
还:科技先知玛丽·米克(Mary Meeker)刚刚放弃了有关AI趋势的大规模报告 - 这是您的TL;
但这就是为什么我们正在进行这些现实世界测试的原因。目前尚不清楚AI会在哪里幻觉或完全失败。到目前为止,虽然我对产品的资源利用率得到了深刻的印象和产品的开源性,但其编码质量输出并不一致。
Github的副驾驶与VS代码无缝集成。AI使要求进行编码有帮助,尤其是在上下文中工作时。这就是为什么它如此令人失望的原因,以至于AI输出通常是非常错误的。
还:我将Github Copilot的AI放在测试中 - 在编写代码时可能很糟糕
我不能很好地良心,建议您使用github副副扩展作为VS代码。我担心诱惑将太大,无法在没有足够测试的情况下插入代码块 - 而Github Copilot的生产代码还没有准备好生产使用。明年再试一次。
在完全令人困惑的事件转折中,Claude 4模型Opus的付费版本失败了我的一半测试。这一结果令人困惑的是,免费版本Claude 4十四行诗通过了所有版本。我不知道该说些什么,除了AI外,可能会很奇怪。
还:Anthropic的免费Claude 4 SONNET对我的编码测试进行了付出
meta ai是Facebook的通用AI。如上所述,它未通过我们的四个测试中的三个。”
还:15种AI在2024年为我节省了时间 - 我计划如何在2025年使用它
AI生成了一个不错的用户界面,但功能为零。它还发现了我烦人的错误,这是一个相当严重的挑战。鉴于找到错误所需的特定知识,我惊讶地发现AI在简单的正则表达挑战中cho住了。但这确实如此。
元代码骆驼是Facebook的AI明确设计用于编码帮助。您可以下载并安装在服务器上。我测试了在A上运行的AI拥抱脸实例。
另外: 元AI可以代码吗?我对骆驼,双子座和chatgpt进行了测试 - 甚至还没有接近
奇怪的是,即使Meta AI和Meta Code Llama都在我的四项测试中cho住,但它们还是在不同的问题上cho住了。AIS不能指望两次给出相同的答案,但这是一个惊喜。我们将看看这是否会随着时间的流逝而改变。
可能不是。我将测试限制在日常编程任务中。没有一个机器人像海盗一样说话,写散文或画一张图片。以同样的方式,我们使用不同的生产力工具来完成特定的任务,可以随意选择帮助您完成手头任务的AI。
唯一的问题是,如果您有预算,并且正在为Pro版本付费。然后,找到可以完成大部分您想要的AI,因此您不必为太多的AI附加组件付费。
我的测试结果令人惊讶,特别是考虑到Microsoft和Google的重大改进。但是,这一创新领域是以经线速度改善,因此,随着时间的推移,我们将返回更新的测试和结果。敬请关注。
您是否使用过这些AI聊天机器人进行编程?您的经验是什么?在下面的评论中让我们知道。
您可以在社交媒体上关注我的日常项目更新。确保订阅我的每周更新时事通讯,并在Twitter/X上关注我@davidgewirtz,在Facebook上facebook.com/davidgewirtz,在Instagram上instagram.com/davidgewirtz,在YouTube上youtube.com/davidgewirtztv。.