英语轻松读发新版了,欢迎下载、更新

我们衡量人工智能进展的方式很糟糕

2024-11-26 10:00:00 英文原文

作者:By Scott J Mulliganarchive page

每次发布新的人工智能模型时,它通常都会被吹捧为在一系列基准测试中表现出色。OpenAI 的GPT-4o例如,该模型于 5 月份推出,其结果汇编显示,其在多项测试中的性能优于其他所有人工智能公司的最新模型。

根据新的研究,问题在于这些基准测试设计不佳,结果难以复制,而且它们使用的指标常常是任意的。研究。这很重要,因为人工智能模型根据这些基准的得分将决定它们受到的审查和监管的程度。

“这似乎就像狂野的西部,因为我们实际上没有良好的评估标准,”该论文的作者安卡·鲁埃尔 (Anka Reuel) 说,他是斯坦福大学计算机科学专业的博士生,也是一名成员其人工智能安全中心。

基准测试本质上是人工智能进行的测试。它可以采用多项选择格式,例如最流行的格式大规模多任务语言理解基准,称为 MMLU,也可以是对人工智能执行特定任务的能力或其对一系列问题的文本响应质量的评估。 

人工智能公司频繁地 引用基准作为新模型成功的证明。“这些模型的开发者倾向于针对特定基准进行优化,”佐治亚理工学院心理学教授兼语言、智力和思维 (LIT) 实验室负责人 Anna Ivanova 说道。参与斯坦福大学的研究。 

这些基准已经成为一些政府监管人工智能计划的一部分。例如,2025 年 8 月生效的欧盟人工智能法案,参考将基准作为确定模型是否表现出“系统性风险”的工具;如果确实如此,它将受到更高级别的审查和监管。英国人工智能安全研究所参考了以下基准检查,这是评估大型语言模型安全性的框架。 

但现在,他们可能还不够好,无法使用这种方式。“如果基准设计得不好,我们就会通过基准创建潜在的错误安全感,特别是对于高风险的用例,”Reuel 说。“该模型可能看起来很安全,但事实并非如此。” 

鉴于基准测试的重要性日益增加,Reuel 和她的同事希望研究最流行的示例,以了解什么是好的基准测试,以及我们使用的基准测试是否足够强大。研究人员首先着手验证开发人员提供的基准测试结果,但他们通常无法重现这些结果。要测试基准测试,您通常需要一些指令或代码来在模型上运行它。许多基准测试创建者并未公开运行其基准测试的代码。在其他情况下,代码已经过时。

基准创建者通常也不公开其数据集中的问题和答案。如果他们这样做了,公司就可以根据基准来训练他们的模型;这就像让学生在参加考试之前查看考试中的问题和答案。但这使得它们很难评估。

另一个问题是基准经常“饱和”,这意味着所有问题几乎都已得到解决。例如,假设有一个包含简单数学问题的测试。第一代 AI 模型在测试中得分为 20%,未能通过。第二代型号达到90%,第三代型号达到93%。局外人可能会看到这些结果并确定人工智能的进步已经放缓,但另一种解释可能只是基准已经解决,不再是衡量进步的重要标准。它无法捕捉第二代和第三代模型之间的能力差异。

该研究的目标之一是定义一系列可作为良好基准的标准。“讨论基准的质量、我们想从它们那里得到什么、我们需要从它们那里得到什么,这绝对是一个重要的问题,”伊万诺娃说。– 问题是没有一个好的标准来定义基准。本文试图提供一套评价标准。这非常有用。”

该论文同时推出了一个网站,更好的基准,对最流行的人工智能基准进行排名。评级因素包括设计是否咨询了专家、测试的功能是否明确定义以及其他基础知识,例如基准测试是否有反馈渠道,或者是否经过同行评审?

MMLU 基准的评级最低。– 我不同意这些排名。事实上,我是一些排名靠前的论文的作者,我会说排名较低的基准比它们更好,”CAIS、人工智能安全中心主任、人工智能安全中心主任丹·亨德里克斯 (Dan Hendrycks) 说。MMLU 基准测试的创建者。一个 尽管如此,Hendrycks 仍然认为推动该领域发展的最佳方式是建立更好的基准。

一些人认为这些标准可能忽略了大局。– 这篇论文增加了一些有价值的内容。实施标准和文档标准——所有这些都很重要。它使基准变得更好,”专门从事人工智能评估的研究机构 Apollo Research 的首席执行官 Marius Hobbhahn 说道。– 但对我来说,最重要的问题是,你衡量的东西正确吗?您可以勾选所有这些框,但您仍然可能会得到一个糟糕的基准,因为它无法衡量正确的事物。”

从本质上讲,即使一个基准设计得完美,如果有人真的担心人工智能的黑客能力,那么测试模型对莎士比亚十四行诗提供令人信服的分析能力的基准可能毫无用处。 

– 您会看到一个用来衡量道德推理的基准。但这意味着什么并没有得到很好的定义。该过程中是否纳入了该领域的专家?论文的另一位作者、斯坦福大学人工智能研究员阿米莉亚·哈迪 (Amelia Hardy) 表示,通常情况并非如此。

有些组织正在积极尝试改善这种情况。例如,一个新的基准来自研究组织 Epoch AI 的设计参考了 60 名数学家的意见,并经两位数学界最负盛名的菲尔兹奖获得者验证为具有挑战性。这些专家的参与满足了其中的标准之一更好的基准评估。当前最先进的模型能够回答基准测试中不到 2% 的问题,这意味着在达到饱和之前还有很长的路要走。 

“我们确实试图代表现代数学研究的全部广度和深度,”Epoch AI 副主任 Tamay Besiroglu 说道。尽管测试很困难,但贝西罗格鲁推测,人工智能模型只需要大约四五年的时间就能在测试中取得好成绩。

Hendrycks 的组织 CAIS 正在与 Scale AI 合作创建一个新的基准,他声称该基准将针对人类知识的前沿测试人工智能模型,称为“人类的最后考试”(HLE)。“HLE 是由全球学者和主题专家团队开发的,”Hendrycks 说。– HLE 包含明确的、不可搜索的问题,需要博士级别的理解才能解决。 – 如果您想提出问题,您可以这里

尽管对于到底应该衡量什么存在很多分歧,但许多研究人员一致认为需要更强大的基准,特别是因为它们为公司设定了方向,并且是政府的关键工具。 

“基准必须非常好,”哈迪说。“我们需要了解什么是“真正的好”,但我们现在还不明白。”

关于《我们衡量人工智能进展的方式很糟糕》的评论


暂无评论

发表评论

摘要

新的研究强调了用于评估 OpenAI 的 GPT-4o 等模型的人工智能基准的缺陷,表明这些指标通常设计不当且不可靠。这些基准会影响人工智能的审查和监管,但如果设计不当,可能会给人一种错误的安全感。提出了更好的基准标准,包括专家咨询和测试能力的明确定义,尽管对于当前标准的充分性以及它们是否衡量人工智能性能的正确方面存在争议。Epoch AI 和 CAIS 等组织正在制定具有严格标准的新基准来解决这些问题。