英语轻松读发新版了,欢迎下载、更新

研究发现

2025-07-11 22:41:00 英文原文

人工智能编码工具应该使软件开发更快,但是在随机,对照试验中测试这些工具的研究人员发现了相反的情况。

非营利研究小组的计算机科学家与模型评估与威胁研究(METR)已发表一项研究表明AI编码工具使软件开发人员较慢,尽管期望相反。

使用AI工具不仅阻碍了开发人员,而且导致他们幻觉,就像AIS有自己做的倾向一样。开发人员预测了24%的速度,但甚至该研究得出结论,他们认为AI实际上将其工作延迟了大约这一百分比时帮助他们完成了20%的任务。

令人惊讶的是,我们发现允许AI实际上将完成时间增加了19%的AI工具使开发人员放缓了

该研究说:“完成研究后,开发人员估计允许AI的完成时间减少20%。”“令人惊讶的是,我们发现允许AI实际上将完成时间增加了19%的AI工具减慢了开发人员的速度。”

该研究涉及16名经验丰富的开发人员,他们从事大型开源项目。开发人员提供了实际问题的列表(例如错误修复,新功能等),他们总共解决了246个,然后预测他们期望这些任务会花费多长时间。这些问题被随机分配以允许或禁止AI工具使用。

然后,开发人员在允许这样做的情况下,使用其选择的AI工具(主要是Claude 3.5/3.7十四行诗)开始处理问题。这项工作发生在2025年2月至6月之间。

研究表明,放缓可能归因于五个因素:

  • “对AI有用性过度优势”(开发人员的期望不切实际)
  • “开发人员对存储库的熟悉”(开发人员经验丰富,AI帮助没有任何帮助)
  • “大而复杂的存储库”(AI在1M+行的大型存储库中的性能较差)
  • “低AI可靠性”(开发人员接受了不到44%的生成建议,然后花费时间清理和审查)
  • “隐性存储库上下文”(AI不了解其操作的上下文)。

其他考虑因素(例如AI发电潜伏期和未能提供最佳背景模型(输入))可能在结果中发挥了一定作用,但研究人员表示,他们不确定这些事情如何影响研究。

其他研究人员还发现,AI并不总是能辜负炒作。一个最近的研究从AI编码Biz Qodo中发现,需要做其他工作以检查AI代码建议的需要削弱了AI软件帮助的一些好处。一项经济调查发现,生成的AI已经对工作或工资没有影响,基于丹麦的数据。一个英特尔研究发现AI PC会使用户的生产力降低。并在中国电力公司打电话给中心工人尽管AI援助可以加速某些任务,但它也通过创建更多的工作来减慢一切。

AI工具的这一方面 - 在研究中包含的图形之一中显而易见。该研究解释说:“当允许AI时,开发人员会花费更少的时间积极地编码和搜索/阅读信息,而是花费时间提示AI,等待和审查AI输出以及空闲。”

更有趣的是,许多编码人员发现AI工具可以帮助以低风险方式快速测试新方案,并自动化某些常规任务,但总体上不能节省时间,因为您仍然必须验证该代码是否实际工作 -他们不学习像实习生。换句话说,人工智能工具可能会使编程逐渐变得更加有趣,但是它们并没有使其更有效。

作者乔尔·贝克尔(Joel Becker),内特·拉什(Nate Rush),贝丝·巴恩斯(Beth Barnes)和戴维·雷恩(David Rein)谨慎,应在狭窄的背景下对他们的工作进行审查,作为基于特定的实验工具和条件的及时快照。

“我们观察到的放缓并不意味着当前的AI工具并不经常提高开发人员的生产率 - 我们发现证据表明,高开发人员对存储库的熟悉程度以及存储库的规模和成熟度都会导致观察到的放缓,并且这些因素在许多软件开发环境中都不适用,”他们说。”

作者继续指出,他们的发现并不意味着当前的AI系统没有用,或者未来的AI模型不会做得更好。®

关于《研究发现》的评论


暂无评论

发表评论

摘要

模型评估与威胁研究(METR)的研究人员发现,在一项随机,对照试验中,AI编码工具实际上使开发人员减少了19%,这与对效率提高的期望相反。开发人员最初预测了24%的加速,但认为工具实际上推迟了工作时的生产率提高了20%。导致这种放缓的因素包括对AI有用性的过度优势,AI建议的可靠性低以及很难理解隐式存储库环境。该研究涉及16位经验丰富的开发人员在2025年2月至6月之间从事开源项目的开发人员。