加入我们的每日和每周的新闻通讯,获取有关行业领先的AI覆盖范围的最新更新和独家内容。了解更多
AI编码模型的宝座上有一个新国王:今天,Google的DeepMind AI研究部门揭幕了Gemini 2.5 Pro i/oâ版,它的新版本点击三月发行那DeepMind首席执行官Demis Hassabis说在X上是我们有史以来建立的最好的编码模型!
确实,该公司发布的最初的基准表明,自《生成AI》竞赛认真开始以来,Google已首次获得领先优势,而2022年后期推出了Chatgpt,这至少是至少一个重要的编码基准。
新版本被标记为“ gemini-2.5-Pro-preview-05-06”,替换了上一版的03-25版本,现在可用于独立开发人员 Google AI Studio对于企业 顶点AI云平台以及对个人用户双子座应用。Google的博客文章说,它还为双子座移动应用程序提供动力 帆布和其他功能。
新版本Powers具有Gemini 95之类的应用程序开发,该应用程序有助于自动匹配跨组件的视觉样式。它还可以使工作流程诸如将YouTube视频转换为功能齐全的学习应用程序,并制作高度样式的组件,例如响应式视频播放器或动画Dastation UIS,几乎没有手动CSS编辑。
这是一个专有模型,这意味着企业将不得不向Google付款以使用它并仅通过Google的Web服务访问它。但是,它没有改变定价或速率限制;Gemini 2.5 Pro的当前用户将自动路由到更新的型号,价格为$ 1.25/$ 10,每百万个令牌进出(对于20万代币的上下文长度)与Claude 3.7十四行诗3/$ 15相比。公司构架此举

Google的年度I/O(输入/输出)开发人员会议本月晚些时候,在5月20日至21日在山景城和在线上 - 以回应有关Gemini在实际代码生成和界面设计中实用实用程序的强烈社区反馈。双子API和Google AI Studio的高级产品经理Logan Kilpatrick,
在开发人员博客文章中确认该更新还解决了围绕功能调用的关键开发人员反馈,并改善了降低错误和触发可靠性。人类评估者在生成Web应用程序方面的最高分数
Gemini 2.5 Pro Preview(05-06)现在,在WebDev Arena排行榜上,根据其产生视觉吸引力和功能性的Web应用程序的能力,按照视觉吸引力和功能性的Web应用程序的能力对模型进行排名。
新版本在排行榜上得分为1499.95,在SONNET 3.7(1377.10)上排名远。
以前的Gemini 2.5 Pro(03-25)模型以1278.96的成绩获得第三名,这意味着I/O版本代表221分的跳高。

如AI Power用户X上的Lisan AlGaibâ,甚至Openai的GPT-4O(O3)都无法取代十四行诗3.7,强调了双子座进步的意义。
双子座的性能提升反映了其产出的可靠性,美学和可用性的提高。
已经赢得了好评
几位开发人员和平台领导者强调了该模型在生产方案中的可靠性和应用。
认知的Silas Alberti指出,Gemini 2.5 Pro是第一个成功完成后端路由系统复杂重构的模型,这表明了人们对高级开发人员的期望。
AI编码工具光标首席执行官Michael Truell表示,内部测试显示,工具呼叫失败明显减少,这是一个以前的问题。他希望用户在动手环境中找到最新版本更有效。光标已经将Gemini 2.5 Pro集成到其自己的代码代理中,反映了开发人员如何将模型用作更智能的开发人员工作流程中的关键组件。
Replit的总裁Michele Catasta将Gemini 2.5 Pro描述为平衡能力与潜伏期的最佳边界模型。他的评论表明,Replit是考虑将模型集成到自己的工具中,尤其是对于高响应能力和可靠性至关重要的任务。
相似地,AI教育工作者和Blueshell Private AI ChatBot创始人Paul Couvert在X上注明了它的代码和UI发电能力令人印象深刻。
和AI艺术工具Everart首席执行官Pietro Schirano在X上指出,新的Gemini 2.5 Pro I/O Edition能够对1 Gorilla与100个男性模因进行交互式模拟,最近从一个提示中在社交媒体上流传。
炫耀另一个互动俄罗斯方块 - 据报道在不到一分钟内创建的具有工作声音效果的式益智游戏,X用户Rameshrâ(@rezmeram)写道,休闲游戏行业已经死了!!
这些认可增加了深度改进的主张,并可能鼓励在开发人员平台之间进行更广泛的采用。
一个文本提示中的完整应用程序和程序
该更新的杰出功能之一是它可以从单个提示中构建完整的交互式Web应用程序或模拟的能力。
这符合DeepMind的愿景,即简化原型和开发过程。
双子座应用程序中的演示展示了用户如何将视觉模式或主题提示转换为可用代码,从而降低了以设计为导向的开发人员和实验新想法的团队进入的障碍。
尽管Gemini 2.5 Pro的体系结构和底层变化尚未公开详细介绍,但重点仍然是使更快,更直观的发展经验能够实现。
通过在代码生成和多模式输入方面发挥其优势,Gemini 2.5 Pro的定位较少作为研究新颖性,而是作为实际编码挑战的实用工具。早期版本反映了Google DeepMind的明确意图,以满足开发人员的需求,并在其主要会议公告之前保持动力。