根据最近的评估,被称为“第一位人工智能软件工程师”的服务似乎在工作中表现相当糟糕。
自动编码器被称为“Devin”,并且是介绍2024 年 3 月。该机器人的创建者(一家名为 Cognition AI 的公司)声称“Devin 可以端到端地构建和部署应用程序”,以及“可以自主查找和修复代码库中的错误”。已全面上市2024 年 12 月,每月 500 美元起。
Cognition 表示:“Devin 是一名自主人工智能软件工程师,可以编写、运行和测试代码,帮助软件工程师处理个人任务或团队项目。”文档声明。它“可以审查 PR、支持代码迁移、响应待命问题、构建 Web 应用程序,甚至执行个人助理任务,例如在 DoorDash 上订购午餐,这样您就可以锁定您的代码库。”
该服务使用 Slack 作为命令的主界面,这些命令被发送到其计算环境,即托管终端、浏览器、代码编辑器和规划器的 Docker 容器。AI代理支持与外部服务的API集成。例如,这允许它通过 SendGrid 代表用户发送电子邮件。
德文是一个“复合人工智能系统”,这意味着它依赖于多个底层 AI 模型,其中包括 OpenAI 的 GPT-4o,并且预计会随着时间的推移而不断发展。
理论上,您应该能够要求它执行诸如将代码迁移到恩布德夫,一个 Jupyter Notebook 开发平台,并期望它能够成功。但这可能要求太多了。
对德文的早期评估发现了问题。认知 AI 发布了宣传视频据推测,这表明人工智能编码员在自由职业者平台 Upwork 上自主完成项目。软件开发商卡尔·布朗分析了该视频并在他的网站上揭穿了它Internet of Bugs YouTube 频道。
另一位 YouTube 代码专家还指责该软件代理涉嫌包含关键安全问题。
现在,三名数据科学家隶属于答案.AI,由 Jeremy Howard 和 Eric Ries 创立的人工智能研发实验室,测试德文结果发现它只成功完成了 20 项任务中的 3 项。
在一个分析本月早些时候进行的哈梅尔·侯赛因,艾萨克·弗拉思, 和约翰·惠特克,Devin 起步顺利,成功地将数据从 Notion 数据库提取到 Google Sheets 中。人工智能代理还成功创建了一个行星跟踪器,用于检查有关木星和土星历史位置的声明。
但随着三位研究人员继续测试,他们遇到了问题。
研究人员在报告中解释说:“看似简单的任务通常需要几天而不是几个小时,德文陷入技术死胡同或产生过于复杂、无法使用的解决方案。”“更令人担忧的是德文倾向于推进实际上不可能完成的任务。”
作为一个例子,他们引用了 Devin 在被要求将多个应用程序部署到基础设施部署平台时的做法铁路,无法理解这不受支持,并花了一天多的时间尝试不起作用的方法并幻想不存在的功能。
的向 Devin 提出 20 项任务中,这位人工智能软件工程师只令人满意地完成了其中的三个挑战——上面提到的两个挑战以及研究如何用 Python 构建 Discord 机器人的第三个挑战。其他 3 项任务产生了不确定的结果,14 个项目彻底失败。
研究人员表示,Devin 提供了出色的用户体验,在运行时令人印象深刻。
“但这就是问题所在——它很少起作用,”他们写道。
“更令人担忧的是,我们无法预测哪些任务会成功。即使是类似于我们早期胜利的任务也会以复杂、耗时的方式失败。看似有希望的自主性变成了一种负担——德文会花几天时间去寻找不可能的解决方案,而不是而不是认识到根本的阻碍因素。”
认知人工智能没有回应置评请求。®