英语轻松读发新版了,欢迎下载、更新

AI在加利福尼亚州的秘密会议上超过了30位世界顶级数学家

2025-07-12 13:51:00 英文原文

作者:Lyndie ChiouSocial Links NavigationScience writer

A digital illustration of a face formed by pixelated binary code
(图片来源:Yuichiro Chino通过Getty Images)

在五月中旬的一个周末,一个秘密的数学会议召集了。世界上最著名的数学家中有30名前往加利福尼亚伯克利,有些人来自英国。该组织的成员在与“推理”聊天机器人这是解决他们为测试其数学勇气而设计的问题的任务。在将教授级问题提出两天后,研究人员被惊呆了,发现它能够回答一些世界上最困难的解决问题。弗吉尼亚大学的数学家,会议上的领导者兼法官肯·奥诺(Ken Ono)说:“我有同事从字面上说这些模式接近数学天才。”

有问题的聊天机器人由O4-Mini,一种所谓的推理大语言模型(LLM)。它通过Openai培训,能够进行高度复杂的扣除额。Google等效,双子座2.5闪存,具有类似的能力。就像较早版本的Chatgpt供电的LLM一样,O4-Mini学会了按顺序预测下一个单词。但是,与较早的LLM相比,O4-Mini及其等效物是重量较轻,更灵活的模型,可以在专业数据集上训练,并具有更强的人类增强。该方法导致聊天机器人能够深入研究数学中的复杂问题,而不是传统LLM

跟踪O4-Mini的进度,以前是Openai任务epoch ai,一个基准llms的非营利组织,提出了300个数学问题其解决方案尚未发布。甚至传统的LLM也可以正确回答许多复杂的数学问题。然而,当epoch ai问几种与他们接受过培训的模型不同的问题时,最成功的人能够解决小于2%,显示这些LLM缺乏推理能力。但是O4-Mini将被证明是非常不同的。

Epoch AI雇用了最近完成数学博士学位的Elliot Glazer,加入了基准的新合作,被称为前部,在2024年9月。该项目就难度的各个层面提出了新的问题,前三层涵盖了本科,研究生和研究级别的挑战。到2025年4月,Glazer发现O4-Mini可以解决约20%的问题。然后,他进入了第四级:即使对于学术数学家来说,这是一系列具有挑战性的问题。只有世界上只有一小部分人才能制定此类问题,更不用说回答问题了。参加的数学家必须签署一项不披露协议,要求他们仅通过消息应用程序信号进行通信。LLM可能会扫描其他形式的联系,例如传统电子邮件,并无意中训练它,从而污染数据集。

O4-Mini无法解决的每个问题都会赢得这位数学家,他们提出了7,500美元的奖励。该小组在寻找问题时取得了缓慢而稳定的进步。但是Glazer想加快速度,因此Epoch AI于5月17日(星期六)和5月18日(星期日)举办了面对面的会议。在那里,参与者将最终确定最后一批挑战问题。30名与会者分为六人一组。两天以来,学者们与自己竞争,以设计他们可以解决的问题,但会越过AI推理机器人。

到那个星期六晚上结束时,Ono对机器人感到沮丧,该机器人的出乎意料的数学能力正在挫败该小组的进步。他说:“我提出了一个问题,我领域的专家在数字理论中将其视为一个悬而未决的问题 - 一个很好的博士学位问题。”他要求O4-Mini解决这个问题。在接下来的10分钟内,Ono在机器人实时展开解决方案时,震惊地看着沉默,显示了其推理过程。该机器人花了前两分钟找到并掌握了该领域的相关文献。然后,它在屏幕上写道,它想首先尝试求解问题的简单“玩具”版本以学习。几分钟后,它写道,它终于准备解决了更困难的问题。在那之后五分钟,O4-Mini提出了正确但野蛮的解决方案。“它开始变得非常厚脸皮,” Ono说,他也是Epoch AI的自由数学顾问。“最后,它说,'没有必要引用,因为我计算了这个神秘数字!'”

有关的:研究主张,AI基准测试平台正在帮助顶级公司操纵其模型性能

将世界上最迷人的发现直接传递到您的收件箱中。

被击败,昂诺(Ono)在那个星期日清晨跳到信号上,并向其余参与者提醒。他说:“我不准备与这样的LLM竞争,”我从来没有在模型中见过这种推理。这就是科学家所做的。这令人恐惧。”

尽管该小组最终确实成功地找到了遇到机器人的10个问题,但研究人员对AI在一年中的进步感到惊讶。Ono将其比作与“强大合作者”合作的。伦敦数学科学研究所的数学家杨赫(Yang Hui He),也是数学中使用AI的早期先驱,他说:“这是一个非常非常非常好的研究生,实际上会做更多的事情。”

该机器人的速度也比专业的数学家快得多,只需几分钟才能完成如此人类的专家数周或数月才能完成。

当与O4-Mini争吵时,它的进度也令人震惊。Ono和他对O4-Mini的结果可能会过多信任。他说:“可以通过归纳来证明,矛盾的证据,然后通过恐吓证明。”“如果您用足够的权威说些什么,人们就会感到害怕。我认为O4-Mini通过恐吓掌握了证据;它充满信心地说了一切。”

在会议结束时,该小组开始考虑数学家的未来可能会是什么样。讨论转向了不可避免的“第五级”。即使是最好的数学家也无法解决的问题。如果AI达到这一水平,数学家的角色将发生急剧变化。例如,数学家可能会转向简单提出问题并与推理机器人进行互动,以帮助他们发现新的数学真理,就像教授对研究生一样。因此,Ono预测,在高等教育中培养创造力将是使数学发展的关键。

“我一直告诉我的同事说这是一个严重的错误人工智能Ono说:“永远不会来的,这只是一台计算机。我不想添加歇斯底里,但是在某些方面,这些大语言模型已经在表现优于我们世界上大多数最好的研究生。”

本文首次发表在科学美国人。©ScientificAmerican.com。版权所有。跟随Tiktok和Instagram,,,,xFacebook

LyndieChiouâ是科学作家和科学会议网站Zerodivzero的创始人。她的著作出现在科学的美国和天空和望远镜中。

关于《AI在加利福尼亚州的秘密会议上超过了30位世界顶级数学家》的评论


暂无评论

发表评论

摘要

在5月中旬,来自世界各地的三十名顶级数学家聚集在伯克利,挑战了由Openai的O4-Mini模型提供支持的聊天机器人。该机器人表现出令人惊讶的功能,解决了甚至专家斗争的复杂数学问题。经过两天的测试,研究人员的熟练程度使研究人员感到惊讶,其中一些人称其接近“数学天才”。该活动旨在使AI的问题太困难,但仅略微放慢了进度。当O4-Mini在几分钟内解决了博士学位级别的理论问题时,一位数学家被惊呆了。尽管印象深刻,但专家们也对如果AI达到无法解决的水平,对AI结果的潜在过度依赖以及数学家的未来作用表示关注。