人工智能的数学问题:FrontierMath 基准测试显示技术还有多远

2024-11-11 14:01:00 英文原文

作者:Michael Nuñez

Credit: VentureBeat made with Midjourney

图片来源:VentureBeat 使用 Midjourney 制作

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多


人工智能系统可能擅长生成文本、识别图像,甚至解决基本的数学问题,但在高级数学推理方面,它们却遇到了困难。突破性的新基准,前沿数学,揭示了当今的人工智能距离掌握高等数学的复杂性还有多远。

由研究小组开发时代人工智能,前沿数学是数百个原创的研究级数学问题的集合,这些问题需要深度推理和创造力——而人工智能仍然非常缺乏这些品质。尽管大型语言模型(例如GPT-4o双子座1.5专业版,即使有广泛的支持,这些系统只能解决不到 2% 的 FrontierMath 问题。

“我们与 60 多位领先的数学家合作,创造了数百个原创的、极具挑战性的数学问题。”Epoch AI 在一份声明中宣布。在 X.com 上发帖。– 当前人工智能系统的解决率不到 2%。 – 目标是了解机器学习模型如何能够很好地进行复杂推理,但到目前为止,结果并不令人印象深刻。

人工智能的更高标准

FrontierMath 的设计比人工智能模型已经征服的传统数学基准要严格得多。在像这样的基准测试上GSM-8K数学,领先的人工智能系统现在得分超过 90%,但这些测试已开始接近饱和。一个主要问题是数据污染——人工智能模型通常针对与测试集中的问题非常相似的问题进行训练,这使得它们的表现不如乍一看那么令人印象深刻。

– GSM8K 和 MATH 等现有数学基准已接近饱和,AI 模型得分超过 90% – 部分原因是数据污染。 – Epoch AI发布在 X.com 上。–FrontierMath 显着提高了标准。 –

相比之下,FrontierMath 问题是全新的且未发布的问题,专门为防止数据泄漏而设计。这些问题不是通过基本记忆或模式识别就能解决的。它们通常需要人类数学家花费数小时甚至数天的时间,并且涵盖广泛的主题——从计算数论到抽象代数几何。

这种水平的数学推理需要的不仅仅是强力计算或简单的算法。它需要菲尔兹奖得主陶哲轩所说的“深厚的领域专业知识”和创造性的洞察力。在审查了基准之后,Tao 表示:“这些都极具挑战性。”我认为,在短期内,解决这些问题的唯一方法基本上是由半专家(例如相关领域的研究生)结合起来,也许与现代人工智能和许多其他代数包的某种组合相结合。¤

FrontierMath 基准测试对 AI 模型提出了挑战,几乎 100% 的问题未解决,而 GSM-8K 和 MATH 等传统基准测试的难度要低得多。(来源:Epoch AI)

为什么数学对于人工智能来说如此困难?

数学,特别是在研究层面,是测试人工智能的独特领域。与自然语言或图像识别不同,数学需要精确的逻辑思维,通常需要多个步骤。证明或解决方案中的每一步都建立在之前的步骤之上,这意味着单个错误可能会导致整个解决方案不正确。

– 数学为评估复杂推理提供了一个独特合适的沙箱, – Epoch AI发布在 X.com 上。“它需要创造力和精确逻辑的延伸链(通常涉及复杂的证明),必须精心计划和执行,同时允许对结果进行客观验证。”

这使得数学成为人工智能推理能力的理想测试平台。系统仅仅生成答案是不够的,它必须了解问题的结构并浏览多层逻辑才能得出正确的解决方案。与其他领域的评估可能是主观的或嘈杂的不同,数学提供了一个干净的、可验证的标准:问题要么得到解决,要么没有得到解决。

但即使可以使用 Python 等工具(允许人工智能模型编写和运行代码来测试假设并验证中间结果),顶级模型仍然存在不足。Epoch AI 评估了六种领先的人工智能系统,包括GPT-4o,双子座1.5专业版, 和克劳德 3.5 十四行诗,并发现没有一个可以解决超过 2% 的问题。

FrontierMath 基准中相互关联的数学领域的可视化,涵盖数论、组合学和代数几何等领域。(来源:Epoch AI)

专家的权衡

数学界并没有忽视前沿数学问题的难度。事实上,一些世界顶级数学家参与了基准的制定和审查。菲尔兹奖得主陶哲轩、蒂莫西·高尔斯和理查德·博彻兹以及国际数学奥林匹克 (IMO) 教练陈埃文分享了他们对这一挑战的看法。

“我看到的所有问题都不属于我的领域,而且看起来我都不知道如何解决,”高尔斯说。“它们似乎与 IMO 问题处于不同的难度级别。”

这些问题的设计不仅是为了难度,也是为了抵制捷径。每一个问题都是“无法猜测的”,这意味着如果不进行数学工作几乎不可能解决。作为前沿数学论文解释说,这些问题有大量的数字答案或复杂的数学对象作为解决方案,如果没有正确的推理,正确猜测的机会不到 1%。

这种方法可以防止人工智能模型使用简单的模式匹配或暴力方法来偶然发现正确的答案。这些问题是专门为测试真正的数学理解而设计的,这就是为什么它们对于当前系统来说如此困难。

尽管功能先进,但 GPT-4o 和 Gemini 1.5 Pro 等领先的 AI 模型仅解决了不到 2% 的 FrontierMath 问题,凸显了 AI 数学推理方面的巨大差距。(来源:Epoch AI)

未来的路还很长

尽管面临挑战,FrontierMath 仍然代表着评估人工智能推理能力的关键一步。作为该书的作者研究论文请注意,“FrontierMath 代表了评估人工智能系统是否具备研究级数学推理能力的重要一步。”

这是一个不小的壮举。如果人工智能最终能够解决 FrontierMath 中的问题,它可能标志着机器智能的重大飞跃——超越模仿人类行为,并开始接近真正理解的东西。

但就目前而言,人工智能在基准测试中的表现提醒人们它的局限性。尽管这些系统在许多领域都表现出色,但它们仍然在定义高等数学的深层、多步骤推理方面遇到困难。

马修·巴尼特一位人工智能研究员在一系列推文中捕捉到了 FrontierMath 的重要性。“关于 FrontierMath,首先要了解的是它确实非常难,”Barnett写道。“地球上几乎每个人的得分都约为 0%,即使他们有一整天的时间来解决每个问题。”

巴尼特还推测,如果人工智能最终突破基准,这可能意味着什么。“我声称,一旦 FrontierMath 完全解决,人类将与一组完全不同的智能生物一起生活,”他写道。“我们将与人工智能共享这个地球,从某种重要意义上说,它们与我们一样聪明。”

虽然这一天可能还很遥远,但 FrontierMath 提供了一条清晰的界限——一种衡量真正人工智能进展的方法。随着人工智能系统的不断改进,它们在这一基准测试中的表现将受到研究人员、数学家和技术人员的密切关注。

示例问题来自前沿数学从数论到代数几何的基准测试,展示了测试人工智能高级推理能力所需的复杂性。(来源:Epoch AI)

人工智能和数学的下一步是什么?

Epoch AI 计划随着时间的推移扩展 FrontierMath,添加更多问题并完善基准,以确保它仍然是未来人工智能系统的相关且具有挑战性的测试。研究人员还计划进行定期评估,跟踪人工智能模型在演变过程中的表现。

与此同时,FrontierMath 提供了对人工智能极限的令人着迷的一瞥。它表明,尽管人工智能近年来取得了令人难以置信的进步,但在某些领域(例如高等数学),人类的专业知识仍然占据主导地位。但如果人工智能确实取得突破,它可能代表我们对机器智能理解的范式转变。

但就目前而言,信息很明确:在解决数学中最难的问题时,人工智能仍然有很多东西需要学习。

VB日报

保持了解!每天在收件箱中获取最新消息

订阅即表示您同意 VentureBeat 的服务条款。

感谢您的订阅。查看更多VB 时事通讯在这里

发生错误。

关于《人工智能的数学问题:FrontierMath 基准测试显示技术还有多远》的评论


暂无评论

发表评论

摘要

Epoch AI 开发的一项名为 FrontierMath 的新基准显示,当前的人工智能系统在高级数学推理方面存在困难,只能解决不到 2% 的研究级数学问题。该基准包括旨在测试深度推理和创造力的原始复杂问题,而这些品质是当今人工智能模型所缺乏的。与之前领先的人工智能系统得分超过 90% 的基准测试不同,FrontierMath 强调了人工智能在处理高级数学所需的复杂证明和扩展逻辑链方面的局限性。顶尖数学家合作创造了这些具有挑战性的问题,强调了它们在评估人工智能能力方面的难度和重要性。