加入我们的每日和每周的新闻通讯,获取有关行业领先的AI覆盖范围的最新更新和独家内容。了解更多
谷歌已经推出双子座2.5闪存这是对其AI阵容的重大升级,它使企业和开发人员对自己的AI的表现进行了前所未有的控制。新模型,今天在预览中发布Google AI Studio和顶点AI,代表了一项战略努力,以提高推理能力,同时保持越来越拥挤的AI市场的竞争价格。
该模型介绍了Google所说的思维预算``一种机制,允许开发人员在产生响应之前通过复杂问题来指定应通过复杂问题分配多少计算能力。这种方法旨在解决当今AI市场的根本张力:更复杂的推理通常是以更高的延迟和定价为代价。
``我们知道许多开发人员用例的成本和延迟问题,因此我们希望为开发人员提供灵活性,以适应该模型的思维数量,具体取决于他们的需求,” Google Deepmind的Google Deepmind产品总监Tulsee Doshi表示,在对VentureBeat的独家访谈中,Google DeepMind的产品总监Tulsee Doshi。
这种灵活性揭示了Google对AI部署的务实方法,因为该技术越来越多地嵌入了成本可预测性至关重要的业务应用中。通过允许打开或关闭思维功能,Google创建了它所谓的第一个完全混合推理模型。
仅为您需要的脑力付款:内部Google的新AI定价模型
新的定价结构突出了当今AI系统中推理的成本。使用时双子座2.5闪存,开发人员支付每百万个令牌0.15美元的投入。根据推理设置,产出成本差异很大:每百万个代币的$ 0.60,思维关闭,启用了推理,跃升至每百万个代币350美元。
合理产出的近六倍的价格差异反映了思维过程的计算强度,在该过程中,模型在产生响应之前会评估多个潜在的路径和考虑。
Doshi告诉VentureBeat,客户为模型产生的任何思维和输出代币付费。在AI工作室UX中,您可以在回应之前看到这些想法。在API中,我们目前不提供对思想的访问权限,但是开发人员可以看到产生了多少个令牌。
思维预算可以从0到24,576代币,以最大限制而不是固定分配。根据Google的说法,该模型明智地确定了根据任务的复杂性使用的预算中的多少,在不需要详尽的推理时保留资源。
Gemini 2.5 Flash如何堆叠:与领先AI模型的基准结果
Google声称双子座2.5闪存在关键基准测试中表现出竞争性能,同时保持型号的尺寸比替代方案较小。在人类的最后考试,一项旨在评估推理和知识的严格测试,2.5 Flash得分为12.1%,表现优于人类克劳德3.7十四行诗(8.9%)和DeepSeek R1(8.6%),尽管最近推出了OpenaiO4-Mini(14.3%)。
该模型还在技术基准上发布了很强的结果GPQA钻石(78.3%)和AIME数学考试(在2025个测试中为78.0%,2024个测试的测试为88.0%)。
Doshi说,公司应该选择2.5 Flash,因为它为其成本和速度提供了最佳价值。”相对于数学,多模式推理,长篇小说和其他几个关键指标的竞争对手,这一点尤其强大。
行业分析师指出,这些基准表明Google正在缩小竞争对手的绩效差距,同时保持定价优势 - 一种可能会引起企业客户观看其AI预算的策略。
聪明与快速:您的人工智能何时需要深入思考?
引入可调推理代表了企业如何部署AI的重大发展。借助传统模型,用户对模型的内部推理过程几乎没有可见性或控制。
Google的方法使开发人员可以针对不同方案进行优化。对于简单的查询,例如语言翻译或基本信息检索,可以禁用思考以提高成本效率。对于需要多步推理的复杂任务,例如数学解决问题或细微的分析,可以启用和微调思维功能。
一个关键的创新是模型的能力,可以根据查询确定合适的推理。Google用示例说明了这一点:一个简单的问题,例如加拿大有多少省?需要最少的推理,而有关梁压力计算的复杂工程问题将自动参与更深入的思维过程。
Doshi说:'Doshi说,将思维能力整合到我们的主线双子座模型中,再加上整体的改进,导致了更高质量的答案。”这些改进在包括SimpleQA(衡量事实的SimpleQA)的整个学术基准中是正确的。
Google的AI周:免费的学生访问和视频生成加入2.5 Flash启动
发行双子座2.5闪存Google在AI领域的积极行动中进行了一周。周一,公司推出了VEO 2双子高级订户的视频生成功能,使用户可以从文本提示中创建八秒的视频剪辑。今天,与2.5 Flash公告一起,Google透露所有美国大学生将免费获得Gemini Advanced,直到2026年春季分析师解释的举动是在未来的知识工作者之间建立忠诚的努力。
这些公告反映了Google的多管策略,以在Openai的Chatgpt主导的市场中竞争,据报道每周8亿用户与双子座的估计相比每月250-2.75亿,根据第三方分析。
2.5 Flash模型凭借其针对成本效率和性能自定义的明确关注,旨在吸引尤其是对需要仔细管理AI部署成本的企业客户的吸引力,同时仍在访问高级功能。
Doshi说:``我们非常高兴地开始从开发人员那里得到有关Gemini Flash 2.5的建设以及他们如何使用思维预算的反馈。”
超越预览:随着Gemini 2.5闪存成熟,企业可以期待什么
尽管此版本正在预览中,但该模型已经可以供开发人员开始构建,尽管Google尚未指定通用可用性的时间表。该公司表示,它将在此预览阶段基于开发人员的反馈而继续完善动态思维功能。
对于企业AI采用者而言,此版本代表了一个机会,可以尝试使用更细微的AI部署方法,并可能将更多的计算资源分配给高风险任务,同时保留常规应用程序的成本。
该模型也可以通过双子座应用在模型下拉菜单中显示为2.5闪存(实验)的地方,取代了前2.0思维(实验)选项。面向消费者的部署表明Google正在使用应用程序生态系统来收集有关其推理体系结构的更广泛反馈。
随着AI越来越多地嵌入业务工作流程中,Google的方法具有可自定义的推理,这反映了一个成熟的市场,在该市场中,成本优化和性能调整变得与原始功能一样重要 - 在生成AI技术的商业化方面向新阶段发出了新阶段。