开放人工智能发布了一个基准工具,用于衡量AI代理的机器学习工程性能。

2024-10-15 14:10:01 英文原文
OpenAI unveils MLE-bench—a tool to measure AI machine-learning engineering capabilities
MLE-bench 是一个用于AI代理的离线Kaggle竞赛环境。每个竞赛都关联有一个描述、数据集和评分代码。提交的作品会在本地进行评分,并通过竞赛排行榜与真实世界中人类的表现进行比较。

OpenAI的一组人工智能研究人员开发了一个工具,用于衡量AI开发人员的机器学习工程能力。该团队撰写了一篇论文,描述了他们的基准测试工具,并将其命名为MLE-bench。发布把它放在上面的单词或短语之后没有提供具体内容,所以无法进行准确翻译。请给出完整的句子以便准确翻译。 原文: it on thearXiv预印服务器。该团队还发布了一篇网页在公司网站上介绍的新工具页面,该工具是开源的。

随着基于计算机的机器学习及相关人工智能应用在过去的几年中蓬勃发展,新的应用程序类型已经被测试。其中一个应用是机器学习工程,其中AI被用于进行工程思维问题、执行实验和生成新代码。

目的是加速新发现的开发或找到解决旧问题的新方法,同时减少工程成本,以便更快地生产新产品。

有些人甚至认为,某些类型的AI工程可能会导致开发出在执行工程工作方面超越人类的AI系统,从而使人在这一过程中的角色变得不再必要。该领域的其他人则对未来的AI工具的安全性表示担忧,担心AI工程系统会发现人类根本不需要了。

OpenAI 新发布的基准测试工具并没有专门解决此类问题,但确实为开发旨在防止任一或同时防止两种结果的工具的可能性打开了大门。

新的本质上是一系列测试——总共75个,全部来自Kaggle平台。这些测试涉及要求新的AI尽可能多地解决这些问题。所有测试都是基于现实世界的,例如要求系统解读一份古代卷轴或开发一种新型的mRNA疫苗。

然后系统会审查结果,以评估任务完成的质量以及其成果是否能在现实世界中应用——随后会给一个评分。此类测试的结果无疑也会被OpenAI团队用作衡量AI研究进展的标准。

值得注意的是,MLE-bench 通过测试 AI 系统自主进行工程工作的能力来评估它们的性能,这包括创新。为了提高在这些基准测试中的得分,被测试的 AI 系统很可能会从自己的工作中学习,也许还会包括他们在 MLE-bench 上的结果。

更多信息:陈俊燊等,MLE-bench:在机器学习工程中评估机器学习代理arXiv (2024). DOI: 10.48550/arxiv.2410.07095

开放人工智能官网指数MLE基准页面

期刊信息: arXiv

© 2024 Science X网络

引用OpenAI 发布了用于衡量人工智能代理的机器学习工程性能的基准测试工具(2024年10月15日) 检索于 2024年10月15日 从 https://techxplore.com/news/2024-10-openai-unveils-benchmarking-tool-ai.html

本文件受版权保护。除个人学习或研究目的的合理使用外,未经书面许可,不得以任何形式复制。所提供内容仅用于信息目的。

关于《开放人工智能发布了一个基准工具,用于衡量AI代理的机器学习工程性能。》
暂无评论

摘要

MLE-bench 是一个离线的Kaggle竞赛环境,用于AI代理。该团队撰写了一篇论文描述他们的基准测试工具,并将其命名为 MLE-bench,发布在arXiv预印本服务器上。测试涉及让一个新的AI解决尽可能多的问题。为了提高他们在这些基准测试中的分数,被测试的AI系统可能还需要从自己的工作中学习,或许包括它们在MLE-bench上的表现。除个人研究或学习目的可以合理使用外,未经书面许可不得以任何形式复制部分内容。