科学家设计了一套新的测试来衡量是否人工智能(AI)代理可以修改自己的代码并提高其能力,而无需人类指示。
基准测试被命名为"MLE-bench",是由75个组件组成的Kaggle测试每个都是对机器学习工程的挑战。这项工作包括训练AI模型、准备数据集和运行科学实验,而Kaggle测试衡量机器学习算法在特定任务上的表现如何。
OpenAI的科学家设计了MLE-bench来衡量AI模型在“自主机器学习工程”方面的表现——这是AI面临的最难测试之一。他们在10月9日上传的一篇论文中详细介绍了这一新基准。arXiv预印本数据库。
任何未来在由MLE-bench组成的75项测试中表现良好的AI都可能被认为足够强大,以成为一款通用人工智能(AGI)系统——一个假设中比人类聪明得多的人工智能——科学家们说。
相关:“未来的你”AI让你能够与60岁的自己对话——它具有令人惊讶的身心健康益处
每个包含75个MLE-bench测试的实际世界中都具有实用价值。例如包括开放疫苗— 寻找一种针对COVID-19的mRNA疫苗的挑战 — 以及维苏威挑战赛用于解读古卷轴。
如果人工智能代理学会自主执行机器学习研究任务,它可能会产生许多积极影响,例如加速医疗、气候科学和其他领域的科学进步。但是,如果不加以控制,这可能导致无法弥补的灾难。
“代理执行高质量研究的能力可能会在经济上成为一个变革性的步骤。然而,有能力执行开放式的机器学习研究任务的代理(例如改进自己的训练代码)可能比人类研究人员更快地显著提升前沿模型的能力,”科学家们写道。“如果创新的速度超过了我们理解其影响的能力,我们将面临开发出具有灾难性危害或滥用风险的模型的风险,而保障、对齐和控制这些模型的发展却未能跟上。”
他们补充说,任何能够解决“大部分”MLE-bench问题的模型很可能能够独立执行许多开放式的机器学习任务。
科学家测试了OpenAI迄今为止设计的最强大AI模型——被称为“o1该AI模型在MLE-bench的75次测试中,在16.9%的情况下至少达到了Kaggle铜牌水平。随着o1尝试次数的增加,这一比例有所提高。
获得铜牌相当于在Kaggle排行榜上位列人类参赛者前40%。OpenAI的o1模型在MLE-bench上平均获得了七枚金牌,比一个被认为是“Kaggle大师”的人多两枚金牌。科学家们在论文中写道,在75个不同的Kaggle竞赛中有且仅有两名人类选手获得过奖牌。
研究人员现在正将MLE-bench开源,以促进对AI代理的机器学习工程能力的研究——基本上允许其他研究人员将其自己的AI模型与MLE-bench进行对比测试。“最终,我们希望我们的工作有助于更深入地了解代理自主执行ML工程任务的能力,这对于未来更强大的模型的安全部署至关重要。”他们总结道。