英语轻松读发新版了,欢迎下载、更新

“第一位人工智能软件工程师”的工作表现不佳

2025-01-23 08:17:00 英文原文

根据最近的评估,被称为“第一位人工智能软件工程师”的服务似乎在工作中表现相当糟糕。

自动编码器被称为“Devin”,并且是介绍2024 年 3 月。该机器人的创建者(一家名为 Cognition AI 的公司)声称“Devin 可以端到端地构建和部署应用程序”,以及“可以自主查找和修复代码库中的错误”。已全面上市2024 年 12 月,每月 500 美元起。

Cognition 表示:“Devin 是一名自主人工智能软件工程师,可以编写、运行和测试代码,帮助软件工程师处理个人任务或团队项目。”文档声明。它“可以审查 PR、支持代码迁移、响应待命问题、构建 Web 应用程序,甚至执行个人助理任务,例如在 DoorDash 上订购午餐,这样您就可以锁定您的代码库。”

该服务使用 Slack 作为命令的主界面,这些命令被发送到其计算环境,即托管终端、浏览器、代码编辑器和规划器的 Docker 容器。AI代理支持与外部服务的API集成。例如,这允许它通过 SendGrid 代表用户发送电子邮件。

德文是一个“复合人工智能系统”,这意味着它依赖于多个底层 AI 模型,其中包括 OpenAI 的 GPT-4o,并且预计会随着时间的推移而不断发展。

理论上,您应该能够要求它执行诸如将代码迁移到恩布德夫,一个 Jupyter Notebook 开发平台,并期望它能够成功。但这可能要求太多了。

对德文的早期评估发现了问题。认知 AI 发布了宣传视频据推测,这表明人工智能编码员在自由职业者平台 Upwork 上自主完成项目。软件开发商卡尔·布朗分析了该视频并在他的网站上揭穿了它Internet of Bugs YouTube 频道

另一位 YouTube 代码专家还指责该软件代理涉嫌包含关键安全问题

现在,三名数据科学家隶属于答案.AI,由 Jeremy Howard 和 Eric Ries 创立的人工智能研发实验室,测试德文结果发现它只成功完成了 20 项任务中的 3 项。

在一个分析本月早些时候进行的哈梅尔·侯赛因,艾萨克·弗拉思, 和约翰·惠特克,Devin 起步顺利,成功地将数据从 Notion 数据库提取到 Google Sheets 中。人工智能代理还成功创建了一个行星跟踪器,用于检查有关木星和土星历史位置的声明。

但随着三位研究人员继续测试,他们遇到了问题。

研究人员在报告中解释说:“看似简单的任务通常需要几天而不是几个小时,德文陷入技术死胡同或产生过于复杂、无法使用的解决方案。”“更令人担忧的是德文倾向于推进实际上不可能完成的任务。”

作为一个例子,他们引用了 Devin 在被要求将多个应用程序部署到基础设施部署平台时的做法铁路,无法理解这不受支持,并花了一天多的时间尝试不起作用的方法并幻想不存在的功能。

向 Devin 提出 20 项任务中,这位人工智能软件工程师只令人满意地完成了其中的三个挑战——上面提到的两个挑战以及研究如何用 Python 构建 Discord 机器人的第三个挑战。其他 3 项任务产生了不确定的结果,14 个项目彻底失败。

研究人员表示,Devin 提供了出色的用户体验,在运行时令人印象深刻。

“但这就是问题所在——它很少起作用,”他们写道。

“更令人担忧的是,我们无法预测哪些任务会成功。即使是类似于我们早期胜利的任务也会以复杂、耗时的方式失败。看似有希望的自主性变成了一种负担——德文会花几天时间去寻找不可能的解决方案,而不是而不是认识到根本的阻碍因素。”

认知人工智能没有回应置评请求。®

关于《“第一位人工智能软件工程师”的工作表现不佳》的评论


暂无评论

发表评论

摘要

最近推出的一位名为“Devin”的人工智能软件工程师因未能有效执行各种任务而受到批评。Devin 由 Cognition AI 开发,被宣传为能够编写、运行、测试代码,甚至处理个人助理职责。然而,Answer.AI 的三名数据科学家进行的分析发现,在提出的 20 项任务中,Devin 只成功完成了 3 项,其余任务则陷入困境,经常陷入困境或寻求不可能的解决方案。研究人员指出,虽然用户界面经过精心设计,但由于性能不可预测且容易忽视基本限制,其有效性受到限制。