加入我们的每日和每周的新闻通讯,获取有关行业领先的AI覆盖范围的最新更新和独家内容。了解更多
大语言模型(LLM)可能已经改变了软件开发,但是尽管Openai首席执行官Sam Altman声称,但企业将需要三思而后行地考虑完全替换人类软件工程师的LLMS模型可以替换低级工程师。
在新论文,,,,Openai研究人员详细介绍了他们如何开发一个名为SWE-Lancer的LLM基准测试,以测试从现实生活中的自由软件工程任务中赚取多少基础模型。该测试发现,尽管模型可以解决错误,但它们可以看出为什么该错误存在并继续犯更多错误。”
研究人员任命了三个LLMS openai的GPT-4O和O1和O1和人类的Claude-3.5十四行诗2488个自由软件工程师任务从自由平台UPWOWS的支出为100万美元。他们将任务分为两个类别:个人贡献任务(解决错误或实现功能)和管理任务(在其中模型Roleplays作为经理,他们将选择解决问题的最佳建议)。
研究人员写道,结果表明,我们的基准模型中的实际自由职业者仍然具有挑战性。
测试表明,基础模型无法完全取代人类工程师。虽然他们可以帮助解决错误,但他们并没有完全可以自己赚取自由现金的水平。
基准测试自由职业模型
研究人员和其他100位专业软件工程师在UPWORK上确定了潜在的任务,并且在没有更改任何单词的情况下,将其馈送到Docker容器中以创建SWE-Lancer数据集。他们解释说,该容器无法访问Internet访问,无法访问GitHub,以避免模型刮擦代码差异或提取请求详细信息。
该团队确定了764个个人贡献者任务,总计约414,775美元,范围从15分钟的错误修复到为期一周的功能请求。这些任务包括审查自由职业者提案和职位发布,将支付585,225美元。
将任务添加到支出平台费用。
研究人员根据任务标题和描述以及代码库的快照生成了提示。如果还有其他建议解决问题,我们还使用问题描述和提案列表生成了一项管理任务,”他们解释说。
从这里开始,研究人员转向端到端的测试开发。他们为每个任务编写了剧作家测试,这些任务应用了这些生成的补丁,然后由专业软件工程师进行了三重验证。
测试模拟了现实世界中的用户流,例如登录应用程序,执行复杂的动作(进行财务交易)并验证模型的解决方案是否按预期运行。”
测试结果
在进行测试之后,研究人员发现,没有一个模型赢得了整个任务价值的全部价值。Claude 3.5十四行诗是表现最好的模型,仅赚了208,050美元,并解决了个人贡献者问题的26.2%。但是,研究人员指出,“大多数解决方案都是不正确的,值得信赖的部署需要更高的可靠性。
这些模型在大多数个人贡献者任务中表现良好,Claude 3.5-Sonnet表现最佳,其次是O1和GPT-4O。
该报告解释说,特工在本地化但没有根本原因方面表现出色,从而导致部分或有缺陷的解决方案。”``代理商使用整个存储库中的关键字搜索快速地定位相关文件和功能通常比人类快得多。但是,他们经常对问题如何跨越多个组件或文件,并且无法解决根本原因有限,从而导致解决方案不正确或不足。我们很少发现代理商旨在复制问题或因未找到正确的文件或位置而失败的情况。”
有趣的是,这些模型在需要推理以评估技术理解的经理任务上都表现得更好。
这些基准测试表明,AI模型可以解决一些低级编码问题,并且可以取代低级软件工程师。这些模型仍然花费时间,经常犯错,并且无法追逐错误以找到编码问题的根本原因。许多低级工程师工作得更好,但是研究人员说,很长一段时间可能并非如此。”