作者:Written by David Gewirtz, Senior Contributing Editor Jan. 30, 2025 at 6:04 a.m. PT
我在技术周围已经呆了很长时间了,几乎没有让我兴奋,甚至让我感到惊讶。但是不久之后打开AI的Chatgpt被释放,我问为我妻子的电子商务网站编写WordPress插件。当它这样做并且插件工作时,我确实感到惊讶。
那是我对聊天机器人和AI辅助编程的深入探索的开始。从那时起,我对14个大型机器型号(LLM)进行了4个现实世界测试。
另外: 人们提示AI时犯的五个最大错误
不幸的是,并非所有聊天机器人都可以编码。自第一次测试以来已经过去了将近两年,甚至现在,我测试的14个LLM中的5个也无法创建工作插件。
在本文中,我将向您展示每个LLM的表现我的测试。我建议您使用两个聊天机器人,但每月的价格为20美元。同一聊天机器人的免费版本做得很好,您可能无需付款就可以通过。但是其余的,无论是免费的还是付费的,都不是那么好。我不会冒险与他们一起编程项目,也不会建议您在表现改善之前这样做。
我写了很多关于使用AIS帮助编程。除非它是一个小型,简单的项目,例如我妻子的插件,AIS不能写整个应用程序或程序。但是他们擅长编写几行,并且在修复代码方面还不错。
还:我测试了DeepSeek的R1和V3编码技巧 - 我们还没有注定要失败
与其重复我写的所有内容,不如继续阅读这篇文章: 如何使用chatgpt编写代码:它可以和不能为您做什么。
如果您想了解我的编码测试,为什么我选择了它们以及为什么它们与对14个LLM的评论相关,请阅读本文: 我如何测试AI聊天机器人的编码能力 - 您也可以。一个
让我们从比较聊天机器人的表现开始:
接下来,让我们单独查看每个聊天机器人。即使以上图表显示14个LLM,我也会讨论13个聊天机器人。结果GPT-4和GPT-4O两者都包含在Chatgpt Plus中。准备好?我们走吧。
优点
缺点
Chatgpt PlusGPT-4和GPT-4O通过了我的所有测试。我最喜欢的功能之一是专用应用程序的可用性。当我测试Web编程时,我将浏览器设置在一件事上,我的IDE打开和chatgpt Mac应用在单独的屏幕上运行。
另外: 我将gpt -4O通过编码测试进行了,它使它们呈现 - 除了一个奇怪的结果
另外, Logitech的及时建筑商可以使用鼠标按钮弹出,可以设置以使用升级的GPT-4O并连接到您的OpenAI帐户,从而使其成为运行提示的简单拇指敲击,这非常方便。
我唯一不喜欢的是,我的GPT-4O测试之一导致了双重选择的答案,其中一个答案是错误的。我宁愿给我正确的答案。即便如此,快速测试确认了哪些答案可以起作用。但是这个问题有些烦人。我在GPT-4中没有这个问题,所以就目前而言,这是我在编码时与ChatGPT使用的LLM设置。
优点
缺点
我认真考虑了列表 困惑Pro作为用于编码的最佳总体AI聊天机器人,但一个失败使它脱离了顶级:您如何登录。《 Pelplexity》不使用用户名/密码或Passkey,并且没有多因素身份验证。该工具所做的就是通过电子邮件将登录引脚发送给您。AI也没有单独的桌面应用程序,就像Chatgpt对Mac所做的那样。
与其他工具不同的是,它使人难忘的是它可以运行多个LLM。虽然您无法为给定的会话设置LLM,但您可以轻松进入设置并选择活动模型。
另外: 困惑Pro可以帮助您编码吗?它采用了我的编程测试 - 感谢GPT -4
对于编程,您可能需要坚持GPT-4O,因为这对我们的所有测试进行了影响。但是,在不同的LLM上进行交叉检查代码可能很有趣。例如,如果您的GPT-4O编写一些正则表达式代码,则可以考虑切换到其他LLM,以查看LLM对生成代码的看法。
如下所示,大多数LLM都是不可靠的,因此请勿将结果视为福音。但是,您可以使用结果为您提供更多内容来检查您的原始代码。这有点像AI驱动的代码评论。
只是不要忘记切换回GPT-4O。
优点
缺点
我不得不说,格罗克让我感到惊讶。我想我对出现在以前被称为Twitter的社交网络上的LLM寄予厚望。但是话又说回来,X现在由埃隆·马斯克(Elon Musk)和马斯克(Musk)的两家公司Tesla和SpaceX拥有高耸的AI功能。
目前尚不清楚Tesla和SpaceX AI DNA进入Grok多少,但我们可以合理地认为可能会有更多的工作。现在,Grok是唯一不基于OpenAi LLM的LLM,将其纳入了推荐列表。
Grok确实犯了一个错误,但这是一个相对较小的错误,可以通过更全面的提示轻松地修复。是的,它未能通过测试。但是,通过其他人,甚至通过在它通过的那一项工作上做出几乎完美的好工作,它就可以赢得了竞争者的位置。
敬请关注。这是一个值得关注的人。
优点
缺点
chatgpt任何人都可以免费使用。虽然Plus和Free版本都支持通过我所有编程测试的GPT-4O,但使用免费应用程序时存在限制。
Openai将免费的Chatgpt用户视为便宜的座位。如果流量很高或服务器很忙,则免费CHATGPT只能为免费用户提供GPT-3.5。该工具只会允许您在降级或关闭您的查询之前进行一定数量的查询。
我有几次免费版的Chatgpt有效地告诉我,我问了太多问题。
Chatgpt是一个很棒的工具,只要您有时不介意关闭。即使是GPT-3.5在测试中的表现都比所有其他聊天机器人都更好,而且它失败的测试是用于由澳大利亚孤独程序员生产的相当模糊的编程工具。
因此,如果预算对您很重要,并且您可以在切断时等待,请免费获得Chatgpt。
优点
缺点
优点
缺点
虽然DeepSeek R1是来自中国的新推理,它拥有所有专家,但目前的真正力量(至少根据我们的测试)是DeepSeek V3。该聊天机器人几乎通过了我们所有的编码测试,以及(现在大部分停止)ChatGpt 3.5进行了。
还:我测试了DeepSeek的R1和V3编码技巧 - 我们还没有注定要失败
Deekseek V3倒下的地方知识更加晦涩难懂。尽管如此,它还是击败了Google的双子座,微软的Copilot和Meta的Meta AI,这本身就是很有成就。我们将密切关注每个DeepSeek模型,因此请继续关注。
我测试了14个LLM,而7个通过了我的大部分测试。其他聊天机器人,包括一些非常适合编程的聊天机器人,每个聊天机器人都通过了我的一个测试 - Microsoft的副驾驶没有通过。
我在这里提到它们,因为人们会问,我确实对它们进行了彻底的测试。有些机器人对其他工作确实可以,因此,如果您只是对它们的功能感到好奇,我将指出他们的一般评论。
与DeepSeek V3不同,高级推理版本DeepSeek R1在我们的编程测试中没有展示其推理功能。奇怪的是,即使对于基本的AI(我们的字符串功能测试)的正则表达式代码,新的故障领域也不是那么困难。
还:我测试了DeepSeek的R1和V3编码技巧 - 我们还没有注定要失败
但这就是为什么我们正在进行这些现实世界测试的原因。目前尚不清楚AI会在哪里幻觉或完全失败。到目前为止,虽然我对资源的利用率大大减少和产品的开源性质印象深刻,但其编码质量输出并不一致。
Github的副驾驶与VS代码无缝集成。它使得非常快速和富有成效地要求编码帮助,尤其是在上下文中工作时。这就是为什么它如此令人失望的原因,以至于它写的代码通常是如此错误。
还:我将Github Copilot的AI放在测试中 - 在编写代码时可能很糟糕
我不能很好地良心,建议您使用github副副扩展作为VS代码。我担心这种诱惑将太大,无法在没有足够测试的情况下插入代码块 - 而Github Copilot的生产代码还没有准备好生产使用。明年再试一次。
meta ai是Facebook的通用AI。如上所述,它未通过我们的四个测试中的三个。”
还:15种AI在2024年为我节省了时间 - 我计划如何在2025年使用它
AI确实生成了一个不错的用户界面,但功能为零。它确实发现了我烦人的错误,这是一个相当严重的挑战。鉴于找到该错误所需的特定知识,我惊讶于它对一个简单的正则表达挑战感到惊讶。但这确实如此。
元代码骆驼是Facebook的AI专为编码帮助而设计的。您可以下载并安装在服务器上。我测试了它在拥抱脸实例。
另外: 元AI可以代码吗?我对骆驼,双子座和chatgpt进行了测试 - 甚至还没有接近
奇怪的是,即使Meta AI和Meta Code Llama都在我的四项测试中cho住,但它们还是在不同的问题上cho住了。AIS不能指望两次给出相同的答案,但这是一个惊喜。我们将看看这是否会随着时间的流逝而改变。
拟人声称其3.5十四行诗版本克劳德·艾(Claude AI)聊天机器人是编程的理想选择。除了一个测试之外,我不太确定所有测试之后。
如果您不将其用于编程,那么Claude可能比Chatgpt的免费版本更好。
我的ZDNET同事玛丽亚·迪亚兹(Maria Diaz)报告克劳德(Claude)可以处理上传的文件,处理比免费版的chatgpt的更多单词,提供比GPT-3.5的最新信息大约一年,以及访问网站。
双子座高级是Google的Gemini(以前是Bard)聊天机器人的20美元Pro版本。我希望该工具能比四分之一更好。有趣的是,它通过了一个测试,即GPT-4/4O以外的每个AI都失败了 - 了解澳大利亚一名程序员生产的相当模糊的编程语言。
因此,如果知道该语言,为什么它不能处理基本的正则表达式或其他第一年的学生问题?
您会认为公司与“开发人员!开发人员!开发人员!”DNA中的咒语将具有在编程测试中做得更好的AI。微软在地球上生产了一些最好的编码工具。但是,Copilot做得不好。
积极的一件事是微软总是从错误中学习。因此,我稍后再检查一下,看看此结果是否有所改善。一个
可能不是。我将测试限制在日常编程任务中。没有一个机器人像海盗一样说话,写散文或画一张图片。以相同的方式,我们使用不同的生产力工具来完成特定的任务,随意选择帮助您完成手头任务的AI。
唯一的问题是,如果您有预算,并且正在为Pro版本付费。然后,找到可以完成大部分您想要的AI,因此您不必为太多的AI附加组件付费。
我的测试结果令人惊讶,特别是考虑到微软和Google的大量投资。但是这一创新领域是以经线速度改善,因此,随着时间的推移,我们将返回更新的测试和结果。敬请关注。
您是否使用过这些AI聊天机器人进行编程?您的经验是什么?在下面的评论中让我们知道。
您可以在社交媒体上关注我的日常项目更新。确保订阅我的每周更新时事通讯,并在Twitter/X上关注我@davidgewirtz,在Facebook上facebook.com/davidgewirtz,在Instagram上instagram.com/davidgewirtz,在YouTube上youtube.com/davidgewirtztv。.