最新研究表明,有缺陷的测试可能会夸大人工智能的能力

2025-11-06 01:23:00 英文原文

作者:By Jared Perlo

一项新研究背后的研究人员表示,用于评估人工智能系统能力的方法通常夸大了人工智能的性能,并且缺乏科学严谨性。

这项研究由牛津互联网研究所的研究人员领导,与其他机构的三打研究人员合作,检查过445 项领先的 AI 测试(称为基准)通常用于衡量各个主题领域的 AI 模型的性能。

人工智能开发人员和研究人员使用这些基准来评估模型能力吹捧技术进步,引用它们来对以下主题提出主张:软件工程性能抽象推理能力。然而,周二发布的论文声称这些基本测试可能不可靠,并对许多基准结果的有效性提出质疑。

根据该研究,大量顶级基准测试未能定义它们到底要测试什么,涉及重用现有基准测试中的数据和测试方法,并且很少使用可靠的统计方法来比较模型之间的结果。

牛津互联网研究所高级研究员、该研究的主要作者 Adam Mahdi 认为,这些基准可能具有令人震惊的误导性:“当我们要求人工智能模型执行某些任务时,我们实际上测量的概念或结构通常与我们想要测量的完全不同。”Mahdi 告诉 NBC 新闻。

牛津互联网研究所研究员、该研究的另一位主要作者安德鲁·比恩 (Andrew Bean) 也同意,即使是信誉良好的基准也常常被盲目信任,值得更多审查。

– 当您听到类似“模特获得博士学位”之类的说法时,您需要持保留态度。比恩告诉 NBC 新闻。“我们不确定这些测量是否做得特别好。”

分析中检查的一些基准衡量特定技能,例如俄语或阿拉伯语能力,而其他基准则衡量更一般的能力,例如空间推理和持续学习。

作者面临的一个核心问题是,基准是否能很好地测试其旨在衡量的现实世界现象,或者作者所说的“构建有效性”。例如,研究中审查的一个基准不是通过一系列无休止的问题来测试模型来评估其说俄语的能力,而是衡量模型在九个不同任务上的表现,例如使用从俄语维基百科中获取的信息回答是或否问题。

然而,该研究中大约一半的基准测试未能明确定义它们声称要测量的概念,这使人们对基准测试能否产生有关正在测试的人工智能模型的有用信息的能力产生怀疑。

例如,在研究中,作者展示了一个名为 Grade School Math 8K (GSM8K) 的常见 AI 基准,该基准用于衡量在一组基本数学问题。观察家经常指出排行榜在 GSM8K 基准测试上显示人工智能模型在基本数学推理方面具有很强的能力,并且该基准测试文档说它是– 对于探索大型语言模型的非正式推理能力很有用。 –

然而,研究作者 Mahdi 表示,GSM8K 等基准测试的正确答案并不一定意味着该模型实际上正在进行数学推理。– 当你问一年级学生二加五等于多少时,他们说七,是的,这就是正确答案。但你能由此得出结论,五年级学生仅仅通过数字相加就掌握了数学推理或算术推理吗?也许吧,但我认为答案很可能是否定的。 –

比恩承认,衡量推理等模糊概念需要评估任务的子集,而这种选择总是不完美的。– 这些评估中有很多令人感动的部分,满足所有这些需要平衡。但本文呼吁制定基准来明确定义他们要衡量的内容,”他说。

“对于诸如无害或推理之类的概念,人们常常只是随意地挑选一些属于他们可以测量的类别的东西,然后说,“太好了,现在我已经测量了它,”比恩补充道。

在新论文中,作者提出了八项建议并提供了一个清单,以系统化基准标准并提高基准的透明度和信任度。建议的改进包括指定所评估的特定行动的范围、构建更好地代表所测量的整体能力的任务组,以及通过统计分析来比较模型的性能。

颇具影响力的 METR 人工智能研究中心的技术人员 Nikola Jurkovic 对这篇论文的贡献表示赞赏。– 如果我们希望能够解释人工智能基准测试的结果,我们需要更加严格。这份清单是研究人员检查他们的基准是否具有洞察力的起点,”尤尔科维奇告诉 NBC 新闻。

周二的报纸建立在先前的研究 指出缺陷在许多人工智能基准测试中。

去年,人工智能公司Anthropic的研究人员主张增加统计测试,以确定模型在特定基准上的表现是否确实显示出能力差异,或者只是考虑到基准中包含的任务和问题而得出的幸运结果。

为了提高基准测试的实用性和准确性,几个研究小组最近提出了一系列新的测试,以更好地衡量模型在具有经济意义的任务上的实际性能。

9月下旬,OpenAI发布了一系列新的测试评估人工智能在 44 种不同职业所需任务上的表现,试图更好地证实人工智能在现实世界中的能力。例如,这些测试衡量人工智能针对假想的销售分析师角色修复客户发票 Excel 电子表格中不一致问题的能力,或者人工智能为假想的视频制作人创建 60 秒视频拍摄的完整制作计划的能力。

人工智能安全中心主任 Dan Hendrycks 和一组研究人员最近发布了类似的报告现实世界的基准旨在评估人工智能系统在远程工作自动化所需的一系列任务上的性能。

“人工智能系统在基准测试中获得高分,但未能真正实现基准测试的实际目标,这是很常见的,”亨德里克斯告诉 NBC 新闻。

马赫迪在调查人工智能基准的更广泛领域时表示,研究人员和开发人员有许多令人兴奋的途径值得探索。“我们对人工智能系统的科学评估才刚刚开始,”马赫迪说。

Jared Perlo 是 NBC 新闻的人工智能撰稿人和记者。他目前得到塔贝尔人工智能新闻中心的支持。

关于《最新研究表明,有缺陷的测试可能会夸大人工智能的能力》的评论


暂无评论

发表评论

摘要

牛津互联网研究所的研究人员与其他机构的合作者一起发布了一项研究,质疑常见人工智能评估基准的可靠性和有效性。该研究检查了 445 项领先的人工智能测试,发现许多测试缺乏明确的定义、重复使用数据并采用不可靠的统计方法。主要作者 Adam Mahdi 认为,这些基准可能会产生误导,通常衡量的概念与预期不同。该论文呼吁在基准设计中制定更明确的标准,以提高透明度和可信度,并提出了诸如定义范围、构建更好的任务组以及使用严格的统计分析等改进措施。