研究
- 出版
- 作者
The International Mathematical Olympiad (âIMOâ) is the worldâs most prestigious competition for young mathematicians, and has been held annually since 1959. Each country taking part is represented by six elite, pre-university mathematicians who compete to solve six exceptionally difficult problems in algebra, combinatorics, geometry, and number theory.奖牌被授予参赛者的上半场,大约8%获得了享有声望的金牌。
最近,IMO也已成为AI系统的质疑,以测试其先进的数学解决问题和推理能力。去年,Google DeepMind的字母隔板和字母度计的结合2系统达到了银色标准,解决六个问题中的四个,并得分28分。利用专业的形式语言,这一突破表明AI开始采取精英人类数学推理。
今年,使用与学生解决方案相同的标准,我们是IMO协调员正式对模型结果正式对模型结果进行正式分级和认证的成绩。认识到今年的学生参与者的重大成就,我们现在很高兴分享双子座的突破性表现的消息。
双子座深思熟虑的IMO 2025年IMO的突破性表现
双子座的高级版本深思熟虑完美地解决了六个IMO问题中的五个,总共获得了35分,并实现了金属水平的性能。解决方案可以在线找到这里。
“我们可以确认Google DeepMind达到了备受疑问的里程碑,在可能的42分中获得了35分 - 金牌得分。他们的解决方案在许多方面都令人惊讶。IMO分级人士发现它们很清楚,精确,大多数易于遵循。”
IMO总裁Gregor Dolinar教授
这项成就是去年的突破性结果的重大进步。在IMO 2024年,需要将问题从自然语言转化为特定于领域的语言,例如精益,而反之亦然,需要将问题从自然语言转化为特定的语言。它还花了两到三天的计算。今年,我们的高级双子座模型以自然语言端到端运行,直接从官方的问题描述中产生严格的数学证明 - 所有这些都在4.5小时的竞争时间限制之内。
充分利用深思熟虑的模式
我们使用Gemini Deep Think的高级版本来实现了今年的结果 - 复杂问题的增强推理模式,其中包含了我们一些最新的研究技术,包括平行思维。该设置使模型能够在给出最终答案之前同时探索和结合多个可能的解决方案,而不是追求一个线性的思想链。
为了充分利用深思熟虑的推理能力,我们还培训了这一版本的Gemini在新颖的增强学习技术方面,这些技术可以利用更多的多步推理,解决问题和定理的数据。我们还为双子座提供了访问数学问题的高质量解决方案的精选语料库,并添加了一些有关如何解决IMO问题的一般提示和技巧。
在将其推出到Google AI Ultra Ultra订户之前,我们将为包括数学家在内的一组可信赖的测试人员提供此深层思想模型的版本。
AI和数学的未来
Google DeepMind与数学社区进行了持续的合作,但我们仍然只是开始AI有可能为数学做出贡献的潜力。通过教我们的系统以更灵活,直觉上的推论,我们正越来越接近建立可以解决更复杂和高级数学的AI。
虽然我们今年的方法纯粹基于双子座的天然语言,但我们也继续在正式系统,字母度计和字母隔板上取得进展。我们认为,将自然语言流利性与严格推理(包括正式语言的验证推理)相结合的代理人将成为数学家,科学家,工程师和研究人员的宝贵工具,从而帮助我们促进人类在AGI道路上的知识。
致谢
我们感谢国际数学奥林匹克组织的支持。
Thang Luong在IMO的深入思考和Edward Lockhart共同领导IMO 2025努力的整体协调方面,领导了高级双子座模型的整体技术方向。
没有以下技术线索,IMO 2025系统将是不可能的。Dawsen Hwang,JuneHyuk Jung共同领导的培训数据和专家评估。乔纳森·李(Jonathan Lee),内特·库什曼(Nate Kushman),波尔·莫雷诺(Pol Moreno),yi tay共同主持了高级双子座思想模型的培训,而lei yu则LED模型评估。Golnaz Ghiazi,Garrett Bingham,Lalit Ja那教徒共同领导的深思熟虑,而Dawsen Hwang(Vincent Cohen-Addad)共同领导了一种增强的推论方法。
IMO 2025系统也是由Ankesh Anand的Theophane Weber的重要贡献开发的,用于建模。Vinay Ramasesh,Andreas Kirsch,Jieming Mao,Zicheng Xu,Wilfried Bounsi,Vahab Mirrokni进行推断;Hoang Nguyen,Fred Zhang,Mahan Malihi,Yangsibo Huang用于培训数据。
我们感谢相关团队和努力的贡献。与Yuri Chervonyi(铅),Trieu Trinh,Hoang Nguyen,Junsu Kim,MirekOlåâk,Marcelo Menegali,Yang Yang Yang Yang Yang。Miklã³sZ.Horvãth,Aja Huang,GoranŽuå¾iä用于正式数学。我们感谢Fabian Pedregosa,Richard Song,Alex Zhai,Sara Javanmardi,Yaguang Li,Filipe Miguel de Almeida,Silvio Lattanzi,Ashkan Norouzi Fard,Tal Schuster,Honglu Fan,Xuezhi Wang,Aditi Mavalankar,Tom tom Schaul,Rosememary,Rosememary Keemary Key。
我们特别感谢Deep Think Team的其他核心成员(Archite Sharma,Tong He,Shubha Raghvendra),培训后的工作(Tianhe Kevin Yu,Siamak Shakeri,Hanzhao Lin,Cosmo lin,Sid Lall)和IMO 2025系统的思维领域研究。
Quoc Le和Pushmeet Kohli建议,在Kristen Chiafullo和Alex Goldin的计划支持下。
Weâd also like to thank our experts for providing data and evaluations: Insuk Seo (lead), Jiwon Kang, Donghyun Kim, Junsu Kim, Jimin Kim, Seongbin Jeon, Yoonho Na, Seunghwan Lee, Jihoo Lee, Younghun Jo, Yongsuk Hur, Seongjae Park, Kyuhyeon Choi, Minkyu Choi, Su-Hyeok Moon, Seojin Kim, Yueun Lee, Taehun Kim, Jeeho Ryu, Seungwoo Lee, Dain Kim, Sanha Lee, Hyunwoo Choi, Aiden Jung, Youngbeom Jin, Jeonghyun Ahn, Junhwi Bae, Gyumin Kim, Nam Dung Tran, Cheng-Chiang Tsai, Kari Ragnarsson, Kiat ChuanTan,Yahya Tabesh,Hamed Mahdavi,Azin Nazari,Xiangzhuo ding,Chu-Lan Kao,Steven Creech,Tony Feng,Ciprian Manolescu。
感谢我们的服务和部署专家:Emanuel Taropa,Charlie Chen,Joe Stanton,Cip Baetu,Alvin Abdagic,Federico LeBron,Ioana Mihailescu,Soheil Hassas Yeganeh和Minh Gang。
还要感谢Jessica Lo和Sajjad Zafar对计算提供和管理的支持;Jane Labanowski,Andy Forbes,Sean Nakamoto的法律和物流;还有Omer Levy,Timothy Lillicrap,Jack Rae,Yifeng Lu,Heng-Tze Cheng,Ed Chi,Ed Chi,Vahab Mirrokni,Tulsee Doshi,Madhavi Doshi,Madhavi Sewak,Melvin Johnson,Koray Kavukcuoglu,Oriol Viny,Jeff Dean,Jeff Dean,Demis Hassabis和Sergey Brin和Sergey and Sergey and Sergey and Sergey and Sergey and Sergey和他们的建议。
最后,我们感谢IMO董事会的Gregor Dolinar教授的支持和认可。
IMO已确认我们提交的答案是完整和正确的解决方案。重要的是要注意,他们的审查不会扩展到验证我们的系统,流程或基础模型(请参阅更多的)。