作者:Lyndie Chiou
全球领先的数学家对人工智能的熟练工人感到震惊
Yuichiro Chino/Getty图像
在五月中旬的一个周末,一个秘密的数学会议召集了。世界上最著名的数学家中有30名前往加利福尼亚州伯克利,有些人来自英国。推理聊天机器人这是解决他们为测试其数学勇气而设计的问题的任务。在将教授级问题提出两天后,研究人员被惊呆了,发现它能够回答一些世界上最困难的解决问题。我有同事说这些模式正在接近数学天才,”弗吉尼亚大学的数学家肯·昂诺(Ken Ono)说,会议的一名领导者和法官。
有问题的聊天机器人由O4-Mini,一种所谓的推理大语言模型(LLM)。它通过Openai培训,能够进行高度复杂的扣除额。Google等同于双子座2.5闪存,具有类似的能力。就像较早版本的Chatgpt供电的LLM一样,O4-Mini学会了按顺序预测下一个单词。但是,与较早的LLM相比,O4-Mini及其等效物是重量较轻,更灵活的模型,可以在专业数据集上训练,并具有更强的人类增强。该方法导致聊天机器人能够深入研究数学中的复杂问题,而不是传统LLM。
跟踪O4-Mini的进度,以前是Openai任务epoch ai,一个基准llms的非营利组织,提出了300个数学问题其解决方案尚未发布。甚至传统的LLM也可以正确回答许多复杂的数学问题。然而,当epoch ai问几种与他们接受过培训的模型不同的问题时,最成功的人能够解决小于2%,显示这些LLM缺乏推理能力。但是O4-Mini将被证明是非常不同的。
如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻业订阅。通过购买订阅,您可以帮助确保有关当今世界的发现和想法有影响力的故事的未来。
Epoch AI雇用了最近完成数学博士学位的Elliot Glazer,加入了基准的新合作,被称为前部,在2024年9月。该项目就难度的各个层面提出了新的问题,前三层涵盖了本科,研究生和研究级别的挑战。到2025年2月,Glazer发现O4-Mini可以解决约20%的问题。然后,他进入了第四层:即使对于学术数学家来说,这100个问题也会具有挑战性。只有世界上只有一小部分人才能制定此类问题,更不用说回答问题了。参加的数学家必须签署一项不披露协议,要求他们仅通过消息应用程序信号进行通信。LLM可能会扫描其他形式的联系,例如传统电子邮件,并无意中训练它,从而污染数据集。
该小组在寻找问题时取得了缓慢而稳定的进步。但是Glazer想加快速度,因此Epoch AI于5月17日(星期六)和5月18日(星期日)举办了面对面的会议。在那里,参与者将最终确定最终的挑战问题。Ono将30名与会者分为六人一组。两天以来,学者们与自己竞争,以设计他们可以解决的问题,但会越过AI推理机器人。O4-Mini无法解决的每个问题都无法获得数学家,他们提出了7,500美元的奖励。
到那个星期六晚上结束时,Ono对机器人感到沮丧,该机器人的意外数学能力正在挫败该小组的进步。他说,我想到了一个问题,我领域的专家将在数字理论中被认为是一个很好的博士学位问题。”他要求O4-Mini解决这个问题。在接下来的10分钟内,Ono在机器人实时展开解决方案时,震惊地看着沉默,显示了其推理过程。该机器人花了前两分钟找到并掌握了该领域的相关文献。然后,它在屏幕上写道,它想首先尝试求解一个更简单的玩具版本以学习。几分钟后,它写道,它终于准备解决了更困难的问题。在那之后五分钟,O4-Mini提出了正确但野蛮的解决方案。Ono说,这也是Epoch AI的自由数学顾问,''说。最后,它说,“没有必要引用,因为我计算了这个神秘数字!
被击败,昂诺(Ono)在那个星期日清晨跳到信号上,并向其余参与者提醒。他说,我不准备与这样的LLM竞争。这就是科学家的工作。那令人恐惧
尽管该小组最终确实成功地找到了遇到机器人的10个问题,但研究人员对AI在一年中的进步感到惊讶。Ono将其比作与强大的合作者合作。
该机器人的速度也比专业的数学家快得多,只需几分钟才能完成如此人类的专家数周或数月才能完成。
当与O4-Mini争吵时,它的进度也令人震惊。Ono和他表示担心O4-Mini的结果可能太受信任了。他说,通过归纳,矛盾的证明,然后通过恐吓证明。”<如果您用足够的权威说些什么,人们就会害怕。我认为O4-Mini通过恐吓掌握了证据。它充满信心地说了一切。
在会议结束时,该小组开始考虑数学家的未来可能会是什么样。讨论转向了不可避免的第五级问题,即使是最好的数学家也无法解决的问题。如果AI达到这一水平,数学家的角色将发生急剧变化。例如,数学家可能会转向简单提出问题并与推理机器人进行互动,以帮助他们发现新的数学真理,就像教授对研究生一样。因此,Ono预测,在高等教育中培养创造力将是使数学发展的关键。
我一直在告诉我的同事们,说普遍的人工智能永远不会到来是一个严重的错误,这只是一台计算机。”我不想加入歇斯底里,但是在许多方面,这些大语言模型已经超过了我们世界上大多数最好的研究生。