作者:Maxwell Zeff
Google DeepMind正在推出双子座2.5深思该公司表示,这是其最先进的AI推理模型,能够通过同时探索和考虑多个想法,然后使用这些输出选择最佳答案来回答问题。
每月250新元的订户极端主义者订阅将从周五开始在Gemini应用程序中访问Gemini 2.5深思熟虑。
Gemini 2.5 Deep Think于5月首次在Google I/O 2025上揭幕,这是Google首个公开可用的多代理模型。这些系统催生了多个AI代理,以并行解决一个问题,该过程比单个代理使用了更多的计算资源,但往往会带来更好的答案。
Google使用了双子座的变体2.5深思熟虑获得金牌在今年的国际数学奥林匹克(IMO)上。
与Gemini 2.5深思熟虑一起,该公司表示,它正在将其在IMO使用的模型发布给精选的数学家和学者组。Google说,这种AI模型需要花费几个小时,而不是像大多数面向消费者的AI模型一样,而不是几秒钟或几分钟。该公司希望IMO模型能够加强研究工作,并旨在获得有关如何改善学术用例的多代理系统的反馈。
Google指出,Gemini 2.5 Deep Think模型比I/O宣布的模型有了重大改进。该公司还声称已经开发了新颖的加强学习技术来鼓励双子座2.5深思熟虑,以更好地利用其推理路径。
Google在一个人中说,深刻的想法可以帮助人们解决需要创造力,战略计划并逐步进行改进的问题。'博客文章与TechCrunch共享。
TechCrunch活动
旧金山 | 10月27日至29日,2025年
该公司表示,Gemini 2.5 Deep Think Think在人类上一次考试(HLE)方面取得了最先进的表现 - 一项艰巨的测试,测量了AI在数学,人文和科学方面回答数千个众包问题的能力。Google声称其模型在HLE上得分为34.8%(没有工具),而Xai的Grok 4得分为25.4%,Openai S O3得分为20.3%。
Google还说,Gemini 2.5 Deep Think认为在LiveCodeBench 6上胜过OpenAI,XAI和拟人化的AI模型,这是对竞争性编码任务的挑战性测试。Google的模特得分为87.6%,而Grok 4得分为79%,Openai S O3得分72%。
Gemini 2.5 Deep Think自动使用代码执行和Google搜索等工具,该公司表示,它比传统的AI模型能够产生更长的响应。
在Google的测试中,与其他AI模型相比,该模型产生了更详细和美观的Web开发任务。该公司声称该模型可以帮助研究人员,并可能加速发现的道路。
似乎有几个领先的AI实验室正在围绕多代理方法融合。
埃隆·马斯克(Elon Musk)的Xai最近发布了自己的多代理系统Grok 4重它说,这能够在几个基准上实现行业领先的业绩。Openai研究员Noam Brown在播客该公司用来在今年的国际数学奥林匹克运动会上获得金牌的未发行的AI模型也是一个多代理系统。同时,人类研究代理生成彻底的研究简介也由多代理系统提供支持。
尽管表现出色,但似乎比传统AI模型更具多代理系统的成本费用。这意味着科技公司可能会将这些系统盖好落后于其最昂贵的订阅计划,XAI和Google现在选择了。
在接下来的几周中,Google表示计划通过双子座API与一组精选的测试人员共享Gemini 2.5深思熟虑。该公司表示,它希望更好地了解开发人员和企业如何使用其多代理系统。
Maxwell Zeff是TechCrunch的高级记者,专门研究AI。Zeff此前曾与Gizmodo,Bloomberg和MSNBC一起,涵盖了AI和Silicon Valley Bank危机的崛起。他总部位于旧金山。当不报告时,他可以找到他远足,骑自行车和探索海湾地区的美食现场。