英语轻松读发新版了,欢迎下载、更新

AI可以修复错误 - 但找不到它们:OpenAI的研究突出了软件工程中L​​LM的限制

2025-02-18 23:16:55 英文原文

作者:Emilia David

Glitchwave software developer typing on a computer lit in neon green against a neon yellow, orange and pink backdrop.

信用:Midjourney制造的VentureBeat

加入我们的每日和每周的新闻通讯,获取有关行业领先的AI覆盖范围的最新更新和独家内容。了解更多


大语言模型(LLM)可能已经改变了软件开发,但是尽管Openai首席执行官Sam Altman声称,但企业将需要三思而后行地考虑完全替换人类软件工程师的LLMS模型可以替换低级工程师。

新论文,,,,Openai研究人员详细介绍了他们如何开发一个名为SWE-Lancer的LLM基准测试,以测试从现实生活中的自由软件工程任务中赚取多少基础模型。该测试发现,尽管模型可以解决错误,但它们可以看出为什么该错误存在并继续犯更多错误。” 

研究人员任命了三个LLMS openai的GPT-4O和O1和O1和人类的Claude-3.5十四行诗2488个自由软件工程师任务从自由平台UPWOWS的支出为100万美元。他们将任务分为两个类别:个人贡献任务(解决错误或实现功能)和管理任务(在其中模型Roleplays作为经理,他们将选择解决问题的最佳建议)。 

研究人员写道,结果表明,我们的基准模型中的实际自由职业者仍然具有挑战性。 

测试表明,基础模型无法完全取代人类工程师。虽然他们可以帮助解决错误,但他们并没有完全可以自己赚取自由现金的水平。 

基准测试自由职业模型

研究人员和其他100位专业软件工程师在UPWORK上确定了潜在的任务,并且在没有更改任何单词的情况下,将其馈送到Docker容器中以创建SWE-Lancer数据集。他们解释说,该容器无法访问Internet访问,无法访问GitHub,以避免模型刮擦代码差异或提取请求详细信息。

该团队确定了764个个人贡献者任务,总计约414,775美元,范围从15分钟的错误修复到为期一周的功能请求。这些任务包括审查自由职业者提案和职位发布,将支付585,225美元。

将任务添加到支出平台费用。 

研究人员根据任务标题和描述以及代码库的快照生成了提示。如果还有其他建议解决问题,我们还使用问题描述和提案列表生成了一项管理任务,”他们解释说。

从这里开始,研究人员转向端到端的测试开发。他们为每个任务编写了剧作家测试,这些任务应用了这些生成的补丁,然后由专业软件工程师进行了三重验证。

测试模拟了现实世界中的用户流,例如登录应用程序,执行复杂的动作(进行财务交易)并验证模型的解决方案是否按预期运行。” 

测试结果

在进行测试之后,研究人员发现,没有一个模型赢得了整个任务价值的全部价值。Claude 3.5十四行诗是表现最好的模型,仅赚了208,050美元,并解决了个人贡献者问题的26.2%。但是,研究人员指出,“大多数解决方案都是不正确的,值得信赖的部署需要更高的可靠性。

这些模型在大多数个人贡献者任务中表现良好,Claude 3.5-Sonnet表现最佳,其次是O1和GPT-4O。 

该报告解释说,特工在本地化但没有根本原因方面表现出色,从而导致部分或有缺陷的解决方案。”``代理商使用整个存储库中的关键字搜索快速地定位相关文件和功能通常比人类快得多。但是,他们经常对问题如何跨越多个组件或文件,并且无法解决根本原因有限,从而导致解决方案不正确或不足。我们很少发现代理商旨在复制问题或因未找到正确的文件或位置而失败的情况。”

有趣的是,这些模型在需要推理以评估技术理解的经理任务上都表现得更好。

这些基准测试表明,AI模型可以解决一些低级编码问题,并且可以取代低级软件工程师。这些模型仍然花费时间,经常犯错,并且无法追逐错误以找到编码问题的根本原因。许多低级工程师工作得更好,但是研究人员说,很长一段时间可能并非如此。” 

每日有关VB每日业务用例的见解

如果您想给老板留下深刻的印象,VB Daily可以为您提供服务。我们为您提供有关公司在制定AI的工作,从监管转变到实际部署的公司,因此您可以分享最大投资回报率的见解。

阅读我们的隐私政策

感谢您的订阅。查看更多VB时事通讯在这里

发生错误。

关于《AI可以修复错误 - 但找不到它们:OpenAI的研究突出了软件工程中L​​LM的限制》的评论


暂无评论

发表评论

摘要

根据OpenAI研究人员的一项新研究,大型语言模型(LLMS)在软件开发方面表现出了希望,但尚未完全替代人类工程师。SWE-LAN​​CER基准测试发现,尽管LLM可以解决错误,但它们通常无法理解根本原因并犯错误。在涉及UPWORK的1,488个现实生活自由职业任务的测试中,没有一个模型可以实现完整的任务值;Claude-3.5十四行诗表现最好,但在100万美元的潜在收益中只能获得208,050美元,许多解决方案是不正确的。研究得出的结论是,尽管AI可以协助解决基本编码问题,但人工工程师对于复杂的解决问题和根本原因分析仍然至关重要。