自由编码人员慰藉:虽然AI模型可以执行许多公司收缩的现实编码任务,但它们的作用比人类有效。
至少在两个月前,当时是阿拉巴马州工程咨询公司Peopletec的研究人员开始比较四个LLM在自由编码工作中的表现。
Peopletec的首席科学家David No.和Peopletec的AI/ML数据科学家Forrest McKee在预印本中描述了他们的项目纸标题为“ AI自由职业者可以竞争?基准测试收入,可靠性和大规模任务成功。”
“我们发现,在Kaggle作为一场竞争的真正(自由职业者)出价的很棒的数据集,因此我们认为:为什么不将其放在大型语言模型上,看看他们能做什么呢?”
使用freelancer.com jobs的kaggle数据集,作者建立了一组1,115个编程和数据分析挑战,可以使用自动测试进行评估。执行自由职业工作所必需的基准编程任务还分配了货币价值,平均为306美元(中位数250美元),因此该论文指出,完成每个自由职业工作的总潜在价值可以实现“大约160万美元”的总潜在价值。
然后他们评估了四个模型:Claude 3.5 Haiku,GPT-4O-Mini,Qwen 2.5和Mismtral,前两个代表商业模型,后两个是开源的。作者估计,人类软件工程师将能够解决95%以上的挑战。没有模特能像这样做,但是克劳德(Claude)最接近。
据报道,“克劳德3.5 haiku的准确性和美元收入都差一点超过了GPT-4O-Mini,”该论文指出,克劳德(Claude)设法以160万美元的价格捕获了约152万美元的理论付款。
“它通过所有测试通过了877个任务,占基准的78.7% - 对于如此多样化的任务集,GPT-4O-Mini的得分很高。GPT-4O-MINI紧密落后,解决了862个任务(77.3%)。QWEN 2.5是第三个最佳任务,解决了764个任务(68.5%)(68.5%)。4。误解了44个任务(4. 4B)。
没人告诉寄存器该项目是为了回应Openai的SWE-Lancer基准,出版在2月。
“他们积累了价值一百万美元的软件任务,这些任务确实反映了[公司实际要求的]。”“这与我们看到的任何其他基准不同,而且您知道有数百万的基准。因此,我们希望使其更加普遍,而不是Chatgpt。”
总体而言,所评估的模型在OpenAI SWE-Lancer基准测试中的成功要比研究人员创建的基准要少得多,这可能是因为在OpenAI研究中,问题范围更加困难。Openai的Swe-Lancer研究的支出为100万美元的总工作价值,Claude 3.5十四行诗为403,325美元,GPT-O1 $ 380,350,GPT-4O的支出为380,350美元,$ 303,525。
在OpenAI研究中的一个特定任务子集中,最佳性能模型或多或少是毫无价值的。
Openai Paper说:“表现最好的模型,Claude 3.5十四行诗,在SWE-Lancer Diamond套装上获得208,050美元,并解决了IC SWE问题的26.2%;但是,大多数解决方案都是不正确的,值得信赖的部署需要更高的可靠性。”
无论如何,尽管AI模型无法替代自由编码人员,但没有人说人们已经在使用它们来帮助他们完成自由软件工程任务。他说:“我不知道有人是否完全自动化了管道。”“但是我认为那是即将来临的,我认为那可能是几个月。”
他说,人们已经在使用AI模型来产生自由职业工作要求。这些正在由AI模型回答,并由AI模型进行了评分。一直是AI。
他说:“观看真是惊人。”
这项研究中,不再说,从300亿个参数中断开源模型中断的结果之一是,开源模型中断。他说:“这是消费者GPU的极限。”“我认为Codestral可能是[这些开源模型中最强大的一个],但它不会完成这些任务。•因此,我认为它确实需要基础架构。这是没有办法的。”®