AI可以修复错误 - 但找不到它们:OpenAI的研究突出了软件工程中LLM的限制
2025-02-18 23:16:55
根据OpenAI研究人员的一项新研究,大型语言模型(LLMS)在软件开发方面表现出了希望,但尚未完全替代人类工程师。SWE-LANCER基准测试发现,尽管LLM可以解决错误,但它们通常无法理解根本原因并犯错误。在涉及UPWORK的1,488个现实生活自由职业任务的测试中,没有一个模型可以实现完整的任务值;Claude-3.5十四行诗表现最好,但在100万美元的潜在收益中只能获得208,050美元,许多解决方案是不正确的。研究得出的结论是,尽管AI可以协助解决基本编码问题,但人工工程师对于复杂的解决问题和根本原因分析仍然至关重要。