作者:Asif Razzaq
机器学习(ML)模型在各种编码任务中显示出了有希望的结果,但在有效评估AI代理在机器学习工程方面的能力上仍存在差距。现有的编码基准主要评估孤立的编码技能,而没有全面衡量执行复杂机器学习任务(如数据准备、模型训练和调试)的能力。
为了解决这一差距,OpenAI的研究人员开发了MLE-bench,这是一个全面的基准测试工具,用于评估人工智能代理在各种由现实场景启发的机器学习工程挑战中的表现。MLE-bench是一个旨在评估人工智能代理能否完成端到端机器学习工程任务的新颖基准。它是由来自Kaggle的75个机器学习工程项目组成的集合构建而成。这些项目涵盖了自然语言处理、计算机视觉和信号处理等多样化的领域。比赛经过精心策划,以评估关键的机器学习技能,包括训练模型、数据预处理、运行实验以及提交结果进行评估。为了提供一个准确的基础线,从公开可用的Kaggle排行榜中收集了人类的表现指标,从而可以将人工智能代理的能力与专家级的人类参赛者进行比较。
MLE-bench 设计了多个方面来有效评估机器学习工程。75个Kaggle竞赛任务中的每一个都代表实际的工程技术挑战,使该基准既严谨又现实。在 MLE-bench 中,每个 Kaggle 竞赛包括问题描述、数据集、本地评估工具以及用于评估代理性能的评分代码。为了确保可比性,每个竞赛的数据集被划分为训练集和测试集,并经常重新设计以避免任何重叠或污染的问题。提交的作品根据人类尝试的成绩通过竞赛排行榜进行评分,代理人会根据他们相对于人类基准的表现获得奖牌(铜牌、银牌、金牌)。评分机制依赖于标准评估指标,如接收者操作特征下的面积 (AUROC)、均方误差以及其他领域特定的损失函数,以提供与 Kaggle 参赛者的公平比较。AI 代理,例如 OpenAI 的 o1-preview 模型结合 AIDE 架构,在这些任务中进行了测试,在 16.9% 的竞赛中达到了相当于Kaggle铜牌的成绩。通过多次尝试,性能显著提高,这表明虽然代理可以遵循已知的方法,但在初始错误恢复或没有多个迭代的情况下有效优化方面存在困难。这突显了当前 AI 系统在执行复杂机器学习工程任务方面的潜力和局限性。
不同支架和AI模型在MLE-bench上的评估揭示了一些有趣的发现。OpenAI的o1-preview模型结合AIDE支架表现出最佳性能,在竞赛中获得奖牌的比例达到了16.9%,并且多次尝试可以显著提高其表现。代理通常在其能够迭代解决方案的情况下表现更好,这突显了解决挑战和优化方案时进行多轮次的重要性。当给予额外资源(如增加计算时间和硬件)时,代理的表现会更好,强调了资源配置的影响。例如,GPT-4o模型在每场竞赛提供24小时的计算时间下性能为8.7%,而提供100小时后提升至11.8%。此外,实验还表明,增加尝试次数(pass@k)对成功率有显著影响,pass@6的表现几乎是pass@1的两倍。另外,关于扩展资源和代理支架的实验展示了根据可用资源和优化策略的性能差异性变化。具体而言,在需要大量模型训练和超参数调整的竞争中,如o1-preview这样的代理在提供更长运行时间或更好硬件配置的情况下表现出显著改进。此次评估为当前AI代理的优势与劣势提供了有价值的见解,特别是它们在调试、处理复杂数据集以及有效利用可用资源方面的能力。
MLE-bench 代表了评估 AI 代理的机器学习工程能力的重要一步,重点在于整体、端到端的表现指标,而不仅仅是孤立的编码技能。该基准提供了一个稳健的框架来评估各种方面的机器学习工程能力,包括数据预处理、模型训练、超参数调整和调试,这些对于实际的机器学习应用至关重要。其目标是促进对 AI 代理在执行实际机器学习任务时潜在能力和局限性的进一步研究。通过开源 MLE-bench,OpenAI 希望鼓励合作,让研究人员和开发人员贡献新的任务、改进现有基准并探索创新的辅助技术。这种协作努力有望加速该领域的进展,最终有助于更安全可靠地部署先进的 AI 系统。此外,MLE-bench 还是一个有价值的工具,用于识别 AI 代理需要进一步发展的关键领域,并为未来增强 AI 驱动的机器学习工程能力的研究工作提供了明确的方向。
一些MLE-bench竞赛的数据存储使用了Git-LFS下载并安装LFS后,运行:
git lfs fetch --all
git lfs pull
你可以安装mlebench
使用pip:
pip install -e .
查看一下纸张以及GitHub此项研究的所有荣誉归于该项目的研究人员。也不要忘了关注我们于推特并加入我们 Telegram 频道和领英集团股份有限公司oup. 如果你喜欢我们的作品,你会爱上我们的新闻通讯..不要忘了加入我们50k+ 机器学习子论坛