英语轻松读发新版了,欢迎下载、更新

X 的 Grok 在我的 AI 编码测试中表现出奇的好

2025-01-06 16:37:00 英文原文

作者:Written by

Grok on an iPhone above a coding background.
当 X 第一次推出聊天机器人时,它是在付费墙后面的。

但是 坦斯塔足球俱乐部尽管如此,X 最近 向世界开放了 Grok。所以我决定扔我的编程测试在它。

还:我如何测试人工智能聊天机器人的编码能力 - 你也可以

因为名字,我一直对 Grok 有点感兴趣。Grok 是由我最喜欢的科幻作家之一罗伯特·海因莱因 (Robert Heinlein) 创造的。我完全相信海因莱因扭曲了我年轻的大脑。

我的父母根据他们认为有益健康的媒体严格控制我接触的媒体。但他们让我自由地阅读我在当地图书馆能找到的任何有限的科幻小说——因为科学这个词意味着它必须具有教育意义。

无需过多关注海因莱因,我们只能说他在社会规范方面有非常开放的态度。他写了强有力的故事,在叙述中加入了精彩的科学相关主题,并经常在他的书中注入深刻的社会评论。

还:2025 年最佳编码人工智能(以及不该使用的人工智能)

他还 创造了这个词“grok”作为一个火星词,具有许多广泛的含义。首次出现于陌生土地上的陌生人,它可以被解释为“我理解”的意思,这种理解存在于深刻的、基本的层面上。因此,这是人工智能聊天机器人的完美名称。

除外……

cleanshot-2025-01-04-at-16-23-442x
David Gewirtz/ZDNET 截图

当我问 Grok 它使用什么 LLM(大语言模型)时,它决定也告诉我它的灵感来自《银河系漫游指南》的机智和叛逆。虽然《搭便车者》确实有智慧,也有叛逆,但它不包括“grok”这个词。

接下来,让我们深入了解我的编程测试。

1. 编写 WordPress 插件

这是一项编码测试,要求人工智能了解 PHP 编程以及如何构建 WordPress 插件。它实际上是应我妻子的现实要求而诞生的,她需要一个工具来对名字进行随机化和排序,但有一些不同。

还:WordPress 用户需要了解有关 Automattic 和 WP Engine 冲突的信息

每个月,她都会在她的电子商务网站上运行一个参与设备,随机选择一堆名字。问题是,她的一些用户如果提交多个项目,就会获得多个条目。因此,随机生成器必须管理多个名称,但也必须将它们分开,这样它们就不会在结果中并排出现。

最后,代码必须提供一个良好、清晰的用户界面,以便她可以简单地粘贴姓名,单击按钮,然后返回列表。

cleanshot-2025-01-04-at-16-25-492x
David Gewirtz/ZDNET 截图

我把这个作业交给 Grok,它成功了。界面布局清晰且功能齐全。而且,最重要的是,它完成了代码应该做的事情,成功地随机化和分离了名称。我认为这次测试获胜。

cleanshot-2025-01-04-at-16-21-192x
David Gewirtz/ZDNET 截图

2. 重写字符串函数

我的第二次测试解决了用户首先向我报告的问题。我推出的代码旨在测试用户输入的数字是否为有效的美元和美分货币。我的错误是该代码只允许输入整数,因此您可以捐赠 5 美元,但不能捐赠 5.25 美元。

Grok 成功重写了正则表达式代码。它非常接近胜利,但我必须给它一个失败,因为它生成的代码不允许使用像 0.5 这样的数字,这是有效的货币金额。它确实允许 0.5,但并非每个用户都会选择在美分值前面添加零。

另外: Elon Musk 的 X 现在默认使用您的数据训练 Grok - 以下是选择退出的方法

它还使用相当低效的机制来进行双重转换,并且不能正确处理无法转换为数字的字符串。

到目前为止,我们一胜一负。

3. 发现烦人的错误

第三个测试需要了解 WordPress 框架和 API,因为我要求 AI 发现的错误是一个微妙的错误,是由于对 WordPress API 要求的误解而导致的。

我测试的许多法学硕士都出现了错误的问题(就像我在尝试调试它时花了几个小时一样)。但 Grok 解决了这个问题,并给了我一个功能上正确且有用的答案。

这给我们带来了两胜一负,使 Grok 领先了几乎一半的人 之前测试过的其他法学硕士。让我们看看它在第四次也是最后一次测试中的表现如何。

4. 编写脚本

这是一项艰巨的测试,因为它要求 AI 识别 Mac 上一个相当低容量的垂直脚本工具,称为 键盘大师。它还要求人工智能能够同时为三个独立的环境编写代码:Keyboard Maestro、Chrome 和 AppleScript。

到目前为止,只有运行 GPT-4 及以上 LLM 的 Google Gemini 和 ChatGPT 通过了此测试。甚至 ChatGPT 3.5 也失败了。

但我们有一个新的人工智能可以应对这种级别的编码挑战:Grok。这使得 Grok 在四场比赛中胜出三场,这使得它领先于所有其他不基于 ChatGPT LLM 的人工智能。

最后的想法 

总体而言,Grok 拥有自己的优势。如果它只允许没有前导零的货币值,那么它将会获得满分。我不确定自从 X 取代 Twitter 以来我对 X 的所有变化有何感受,但 Grok 似乎是一个相当强大的聊天机器人,至少在编程能力方面是这样。

另外: 如何对 iPhone 的操作按钮进行编程以召唤 ChatGPT 的语音助手

你怎么认为?你用过格罗克吗?你读过《异乡的陌生人》吗?搭便车的人怎么样?请在下面的评论中告诉我们。这么久了,还有 谢谢所有的鱼


您可以在社交媒体上关注我的日常项目更新。请务必订阅我的每周更新时事通讯,并在 Twitter/X 上关注我:@大卫格维茨,在 Facebook 上Facebook.com/DavidGewirtz,在 Instagram 上Instagram.com/DavidGewirtz,在蓝天上@DavidGewirtz.com,以及 YouTube 上的YouTube.com/DavidGewirtzTV。.

关于《X 的 Grok 在我的 AI 编码测试中表现出奇的好》的评论


暂无评论

发表评论

摘要

ZDNET 的 David Gewirtz 测试了 X 的 Grok 聊天机器人的编码能力,发现它在四分之三的测试中表现良好:编写 WordPress 插件、发现烦人的错误以及跨多个环境处理复杂的脚本。但是,Grok 无法正确处理没有前导零的十进制货币值。尽管最初受到限制,X 最近还是向公众开放了 Grok。文章强调了罗伯特·海因莱因为了深入理解而创造的“Grok”这个名字的重要性,但也指出了它与道格拉斯·亚当斯作品中的灵感存在的差异。中电网络