作者:Deni Ellis Béchard
2025年8月21日
6分钟阅读
OpenAI研究人员揭示了他们的实验模型如何没有任何外部辅助工具,可以通过长达数小时的证据来赢得国际数学奥林匹克运动物的金牌成绩,并讨论该项目的起源并描述该工作如何帮助人工通用情报。
Peshkov/Getty图像
在7月2025年国际数学奥林匹克(IMO)的几个月之前,Openai的三人团队很长一段押注,他们可以利用比赛的残酷艰难问题来训练人工智能单独思考数小时的模型,以便能够编写数学证明。他们的目标不是创建一个可以进行复杂数学的人工智能,而是一个可以评估歧义和细微差别技能的人,如果他们有一天要承担许多具有挑战性的现实世界任务,那么他们将需要。实际上,这些正是创建所需的技能人工通用情报,或AGI:人类水平的理解和推理。
IMO今年在澳大利亚的阳光海岸举行,是全球高中生的首要数学竞赛,将来自100多个国家 /地区的顶级竞争者汇集在一起。每天都给出了相同的六个问题,每个问题值得在两天内解决7分。但是这些问题与您可能从高中所记得的那样不像。每个人都要求以长期书面证明的形式持续推理和创造力,而不是简短的数字答案。这些逻辑,逐步的论点必须跨越数学正是直到今年,AI系统的出色问题恰好失败了。
OpenAI研究人员和工程师Alex Wei,Sheryl Hsu和Noam Brown使用通用推理模型:AI旨在通过挑战性问题来思考的AI,通过将它们分解为步骤,检查自己的工作并进行改编而来。尽管AI系统无法正式竞争参与者,但臭名昭著的艰难测试是表明他们可以做什么的,而AIS以相同的测试形式解决了今年的问题,并且与人类参与者具有相同的限制。收到问题后,团队的实验系统工作了两个4.5小时的课程(就像学生参赛者一样),没有工具或互联网,它绝对没有搜索引擎或用于数学设计的软件等工具的外部帮助。它产生的证据由三名前IMO奖章者和在线发布。AI正确地完成了六个问题中的五个,在42分中,有35分,是IMO金牌所需的最低要求。(Google的DeepMind AI系统也达到了今年的得分。)在630名竞争者中,只有26名学生或4%的人表现优于AI;五个学生获得了完美的42秒。鉴于一年前,基于语言的AI系统(如Openai的Soperai System)努力进行基本数学,因此结果是巨大的绩效飞跃。
如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻业订阅。通过购买订阅,您可以帮助确保有关当今世界的发现和想法有影响力的故事的未来。
在以下对话中,科学美国人与OpenAI团队Alex Wei和Sheryl Hsu的两名成员进行了交谈,讨论了他们如何进行工作,为什么对第六个问题缺乏回答实际上是朝着解决AI的幻觉问题的重要一步,以及如何开发能够编写复杂证据的系统如何帮助导致人工学子通用情报。
[随后是访谈的编辑笔录。这是给出的
是什么促使您突然开始在比赛开始前几个月为IMO准备AI模型?火花是什么?
魏:我已经在考虑数学证明了一段时间了。我在Openai的一支名为Mathgen的团队中。我们刚刚看到结果进展了很多。我们觉得自己有一个镜头来获得一个可以在IMO上表现出色的模型,我们想疯狂地破折号来到达那里。
HSU:我曾经参加数学比赛。[WEI]曾经参加数学比赛。他比我要好得多。IMO在[AI研究]社区中绝对是众所周知的,包括OpenAI的研究人员。因此,专门为此而鼓舞人心。
您能否谈谈您决定使用一般目的AI系统的决定,而不是专门设计用于回答数学问题的系统?
魏:理念是,我们要建立一般的目的AI并开发不仅仅适用于数学的方法。数学对于AI来说是一个很好的证据基础,因为这是相当客观的:如果您有证据,就可以更容易就是否正确获得共识。例如,诗歌的读者更加困难。IMO问题非常困难,因此我们想通过一般目的方法解决严重问题,希望它们也适用于数学以外的领域。
HSU:我还说,Openai的目标是建立Agi,不一定要撰写论文或赢得比赛。重要的是,我们为这个项目所做的一切也对建立AGI的更大目标和用户可以实际使用的更好模型都有用。
推理模型在IMO中赢得黄金的哪种方式可以帮助导致AGI?
WEI:一种观点是考虑任务需要多长时间。一年前,Chatgpt只能遇到非常基本的数学问题。两年前甚至一年半前,我们都经常在考虑您在五年级作业中发现的年级数学问题。对于真正擅长数学的人,那些需要一两秒钟才能阅读和解决。然后,我们开始使用AIME [美国邀请赛数学考试,15个问题的高中数学竞赛]进行评估。每个问题大约需要10分钟,大约需要三个小时,解决15个问题。IMO只有三个半小时,只有三个问题,每个问题90分钟。Chatgpt开始对快速问题有好处。现在,在更长的运行任务上,您可以为我编辑本段吗?
HSU:另一个方面是,推理模型以前非常擅长易于验证的任务。如果您解决了基于非证明的数学问题,则有一个数字正确的答案。很容易检查。但是在现实世界中,在任务中,人们实际上想要帮助,这更加复杂。有细微差别:也许这主要是正确的,但有一些错误;也许是正确的,但可以更好地进行风格化。基于证明的数学是不琐碎的。如果我们考虑AGI,那些任务将很容易判断为正确与否。它们将更加宽松地指定,总体上更难。
训练模型的过程是什么?
魏:一般而言,强化学习通过奖励好行为并惩罚不良行为来训练模型。如果您反复增强好行为并阻止不良行为,那么该模型就会更有可能表现出好行为。
HSU:最后,我们还规模扩大了测试时间计算[AI模型在回答之前能够思考多长时间]。以前,对于人类而言,这种问题可能需要几分钟。现在,我们正在扩展数小时。那个额外的思考时间带来了惊人的收获。有一个时刻,我们在内部测试集上进行了评估,由于测试时间计算增加了很长时间。当我们终于看了结果时,亚历克斯对他们进行了评分。看到进步使我认为黄金可能触手可及。那真是令人兴奋。
在IMO测试中,您开发的模型在六个答案中有五个正确。但是对于第六个问题,该模型没有尝试提供答案。您能告诉我更多有关此回应的意义的信息吗?
魏:知道它做什么的模型不知道是我们看到的[进步]的早期迹象之一。今天,如果您使用chatgpt,您有时会看到幻觉 - 模型何时不知道。该功能不是数学特定的。如果对于每天的问题,我可以诚实地说它什么时候知道,而不是给出答案,我必须诚实地说,我很喜欢它。
您对此模型的工作对未来模型有什么影响?
HSU:我们为这个项目所做的一切都是相当普遍的目的,能够对单个答案的输出进行评分,并在稳步进步的同时长期解决困难问题。那些为这里的成功做出了很大的贡献,现在我们和Openai的其他人正在将它们应用于数学之外。它不在GPT 5中,但是在未来的模型中,我们很高兴能够整合这些功能。
WEI:如果您查看我们公开发布有关IMO问题的解决方案,则有些是很长的五到10页。该模型可以产生一致且连贯的长输出,而不会出错。艺术模型的许多当前状态都可以产生完全连贯的五页报告。我很高兴这种护理和精度将在许多其他领域中有所帮助。