英语轻松读发新版了,欢迎下载、更新

数学家设计了新的问题来挑战高级人工智能的推理能力——但他们几乎没有通过所有测试

2024-11-19 12:00:00 英文原文

作者:Stephanie PappasSocial Links NavigationLive Science Contributor

Equations shown in a digital format.
研究人员根据新基准测试了六种最先进的人工智能模型,单个系统的最佳得分为 2%。 (图片来源:hh5800/Getty Images)

数学家们难倒了最先进的生成式人工智能(人工智能)模型具有一系列令人费解的新数学问题。

该研究所称,这些问题通常需要博士级数学家花费数小时至数天的时间来解决时代人工智能。但在新的测试中,市场上最先进的人工智能模型对其中不到 2% 的问题给出了正确答案。

在过去的十年中,已经开发了许多人工智能测试来确定这些模型返回的答案是否真正正确。在许多情况下,人工智能模型现在可以轻松通过这些基准。

例如,在常用的测量大规模多任务语言理解(MMLU)基准测试中,当今的人工智能模型正确回答了 98% 的数学问题。

Epoch AI 的数学家 Elliot Glazer 及其同事在预印本数据库上发布的一篇新论文中写道,这些基准测试大多数都是为了测试人工智能进行高中和大学水平数学的能力arXiv。(该论文尚未经过同行评审或在科学期刊上发表。)

有关的:科学家设计了新的“AGI 基准”,表明未来的人工智能模型是否会造成“灾难性伤害”

称为 FrontierMath 的新基准测试集旨在实现更高水平的推理。Epoch AI 在数学教授的帮助下开发了这些问题,其中包括一些菲尔兹奖获得者,菲尔兹奖可能是数学界最负盛名的奖项。这些问题涵盖了从数论到代数几何的广泛子领域,并且可以在Epoch AI 网站

将世界上最迷人的发现直接发送到您的收件箱。

“这些都极具挑战性,”2006 年菲尔兹奖得主陶哲轩加州大学洛杉矶分校的数学家在 Epoch AI 的问题评论中写道。“我认为,在短期内,基本上解决这些问题的唯一方法是缺乏该领域真正的领域专家,而是由相关领域的研究生等半专家组成,也许与某种组合相结合现代人工智能和许多其他代数包的一部分。”

这些问题也很独特——采取这一措施是为了确保人工智能模型的训练数据中不存在任何问题。当训练数据中包含复杂的推理问题时,人工智能可能看起来可以解决问题,但实际上,它已经有了一张“备忘单”,因为它已经接受了答案的训练。

研究人员测试了六种最先进的人工智能模型:Google 的 Gemini 1.5 Pro (002)、Anthropic 的 Claude 3.5 Sonnet、OpenAI 的 o1-preview、o1-mini 以及 GPT4o 和 xAI 的 Grok-2 Beta。Gemini 和 Claude 成功解决了 2%,仅比 o1-preview、o1-mini 和 GPT-4o 的 1% 稍好一些。Grok-2 Beta 未能解决任何问题。

然而,研究人员警告说,这些排名具有误导性,因为成功率低意味着单个正确答案可能会对每个模型的总体得分产生巨大影响。

“即使模型获得了正确的答案,这并不意味着它的推理是正确的,”论文作者写道。“例如,对于其中一个问题,运行一些简单的模拟就足以做出准确的猜测,而无需任何更深入的数学理解。然而,模型的整体准确性较低,表明这种猜测策略不适用于绝大多数 FrontierMath 问题。”

Epoch AI 的合作者总结道,研究结果表明,目前人工智能模型不具备研究水平的数学推理能力。然而,随着人工智能模型的进步,这些基准测试将提供一种方法来了解它们的推理能力是否正在加深。

该团队在声明中写道:“通过定期评估最先进的模型并与人工智能研究界合作,我们的目标是加深对人工智能能力和局限性的理解。”

斯蒂芬妮·帕帕斯 (Stephanie Pappas) 是《Live Science》的特约撰稿人,涵盖的主题从地球科学到考古学,再到人脑和行为。她之前是《Live Science》的高级撰稿人,但现在是科罗拉多州丹佛市的自由职业者,并定期为《科学美国人》和美国心理学协会的月刊《The Monitor》撰稿。斯蒂芬妮获得了南卡罗来纳大学的心理学学士学位和加州大学圣克鲁斯分校的科学传播研究生证书。 

关于《数学家设计了新的问题来挑战高级人工智能的推理能力——但他们几乎没有通过所有测试》的评论


暂无评论

发表评论

摘要

数学家设计了当前先进人工智能模型难以解决的复杂数学问题,大多数模型在这些挑战上的准确率低于 2%。这个名为 FrontierMath 的新基准是由 Epoch AI 与数学教授(包括菲尔兹奖获得者)合作开发的,旨在测试超出典型高中和大学水平基准(如 MMLU)的更高水平的推理技能。当对六种最先进的人工智能模型进行测试时,没有一个模型表现出研究级的数学推理能力。尽管取得了一些小成功,但总体准确率较低,凸显了当前人工智能的数学熟练程度与人类专家表现之间的巨大差距。