AI在加利福尼亚州的秘密会议上超过了30位世界顶级数学家

A digital illustration of a face formed by pixelated binary code

（图片来源：Yuichiro Chino通过Getty Images）

在五月中旬的一个周末，一个秘密的数学会议召集了。世界上最著名的数学家中有30名前往加利福尼亚伯克利，有些人来自英国。该组织的成员在与“推理”聊天机器人这是解决他们为测试其数学勇气而设计的问题的任务。在将教授级问题提出两天后，研究人员被惊呆了，发现它能够回答一些世界上最困难的解决问题。弗吉尼亚大学的数学家，会议上的领导者兼法官肯·奥诺（Ken Ono）说：“我有同事从字面上说这些模式接近数学天才。”

有问题的聊天机器人由O4-Mini，一种所谓的推理大语言模型（LLM）。它通过Openai培训，能够进行高度复杂的扣除额。Google等效，双子座2.5闪存，具有类似的能力。就像较早版本的Chatgpt供电的LLM一样，O4-Mini学会了按顺序预测下一个单词。但是，与较早的LLM相比，O4-Mini及其等效物是重量较轻，更灵活的模型，可以在专业数据集上训练，并具有更强的人类增强。该方法导致聊天机器人能够深入研究数学中的复杂问题，而不是传统LLM。

跟踪O4-Mini的进度，以前是Openai任务epoch ai，一个基准llms的非营利组织，提出了300个数学问题其解决方案尚未发布。甚至传统的LLM也可以正确回答许多复杂的数学问题。然而，当epoch ai问几种与他们接受过培训的模型不同的问题时，最成功的人能够解决小于2％，显示这些LLM缺乏推理能力。但是O4-Mini将被证明是非常不同的。

Epoch AI雇用了最近完成数学博士学位的Elliot Glazer，加入了基准的新合作，被称为前部，在2024年9月。该项目就难度的各个层面提出了新的问题，前三层涵盖了本科，研究生和研究级别的挑战。到2025年4月，Glazer发现O4-Mini可以解决约20％的问题。然后，他进入了第四级：即使对于学术数学家来说，这是一系列具有挑战性的问题。只有世界上只有一小部分人才能制定此类问题，更不用说回答问题了。参加的数学家必须签署一项不披露协议，要求他们仅通过消息应用程序信号进行通信。LLM可能会扫描其他形式的联系，例如传统电子邮件，并无意中训练它，从而污染数据集。

O4-Mini无法解决的每个问题都会赢得这位数学家，他们提出了7,500美元的奖励。该小组在寻找问题时取得了缓慢而稳定的进步。但是Glazer想加快速度，因此Epoch AI于5月17日（星期六）和5月18日（星期日）举办了面对面的会议。在那里，参与者将最终确定最后一批挑战问题。30名与会者分为六人一组。两天以来，学者们与自己竞争，以设计他们可以解决的问题，但会越过AI推理机器人。

到那个星期六晚上结束时，Ono对机器人感到沮丧，该机器人的出乎意料的数学能力正在挫败该小组的进步。他说：“我提出了一个问题，我领域的专家在数字理论中将其视为一个悬而未决的问题 - 一个很好的博士学位问题。”他要求O4-Mini解决这个问题。在接下来的10分钟内，Ono在机器人实时展开解决方案时，震惊地看着沉默，显示了其推理过程。该机器人花了前两分钟找到并掌握了该领域的相关文献。然后，它在屏幕上写道，它想首先尝试求解问题的简单“玩具”版本以学习。几分钟后，它写道，它终于准备解决了更困难的问题。在那之后五分钟，O4-Mini提出了正确但野蛮的解决方案。“它开始变得非常厚脸皮，” Ono说，他也是Epoch AI的自由数学顾问。“最后，它说，'没有必要引用，因为我计算了这个神秘数字！'”

有关的：研究主张，AI基准测试平台正在帮助顶级公司操纵其模型性能

将世界上最迷人的发现直接传递到您的收件箱中。

被击败，昂诺（Ono）在那个星期日清晨跳到信号上，并向其余参与者提醒。他说：“我不准备与这样的LLM竞争，”我从来没有在模型中见过这种推理。这就是科学家所做的。这令人恐惧。”

尽管该小组最终确实成功地找到了遇到机器人的10个问题，但研究人员对AI在一年中的进步感到惊讶。Ono将其比作与“强大合作者”合作的。伦敦数学科学研究所的数学家杨赫（Yang Hui He），也是数学中使用AI的早期先驱，他说：“这是一个非常非常非常好的研究生，实际上会做更多的事情。”

该机器人的速度也比专业的数学家快得多，只需几分钟才能完成如此人类的专家数周或数月才能完成。

当与O4-Mini争吵时，它的进度也令人震惊。Ono和他对O4-Mini的结果可能会过多信任。他说：“可以通过归纳来证明，矛盾的证据，然后通过恐吓证明。”“如果您用足够的权威说些什么，人们就会感到害怕。我认为O4-Mini通过恐吓掌握了证据；它充满信心地说了一切。”

在会议结束时，该小组开始考虑数学家的未来可能会是什么样。讨论转向了不可避免的“第五级”。即使是最好的数学家也无法解决的问题。如果AI达到这一水平，数学家的角色将发生急剧变化。例如，数学家可能会转向简单提出问题并与推理机器人进行互动，以帮助他们发现新的数学真理，就像教授对研究生一样。因此，Ono预测，在高等教育中培养创造力将是使数学发展的关键。

“我一直告诉我的同事说这是一个严重的错误人工智能Ono说：“永远不会来的，这只是一台计算机。我不想添加歇斯底里，但是在某些方面，这些大语言模型已经在表现优于我们世界上大多数最好的研究生。”

LyndieChiouâ是科学作家和科学会议网站Zerodivzero的创始人。她的著作出现在科学的美国和天空和望远镜中。

OC

AI在加利福尼亚州的秘密会议上超过了30位世界顶级数学家

关于《AI在加利福尼亚州的秘密会议上超过了30位世界顶级数学家》的评论

发表评论

摘要

相关新闻

相关讨论