Google以Gemini 2.5 Pro的形式推出了闪亮的新AI模型,尽管它旁边有一个实验性标签,并且可以免费使用,因此您无需订阅双子座高级得到它。与最近的许多AI模型发布据说,该模型的“推理”功能是这里最大的升级。
用人工智能术语来说,推理意味着更彻底地解决的答案。根据Google的说法,这将产生更少的错误,更多的逻辑回应以及对“上下文和细微差别”的更好欣赏。现在,在将来的Google模型中,这种额外的“思想”功能将成为标准化。
Pro(实验)版本是Gemini 2.5的第一个变体,而原始版本博客文章没有提及免费用户,不到一周后,我们才有更新说如果您不是双子座高级订户,则可以适用于每个人都适用的限制(Google尚未指定这些费率限制是什么)。现在可以通过桌面应用程序获得新型号,并即将到达移动设备。
Gemini 2.5 Pro在各种AI基准测试中达到了新的水平。 信用:Google
Google指出了几项基准测试,这些测试显示了Gemini 2.5 Pro的能力。在写作时,LMARENA排行榜,在这里用户对数十个AI聊天机器人的响应进行评分。它也在人类的最后考试测试人类知识和推理的测试狭义地从Openai和人类中淘汰了竞争对手模型。
还要注意:大上下文窗口。简而言之,这表明AI模型可以一次性流失的数据有多少,而Gemini 2.5 Pro具有100万个令牌的上下文窗口,根据Google的说法,有200万个“即将推出”。相比之下,例如Chatgpt的O3-Mini推理模型的上下文窗口,例如200,000个令牌。
由于这些AI公告趋向于规范,就培训数据而言,没有提及侵犯版权,或者增加了能源利用。根据给麻省理工学院研究人员,现代的AI模型使用“惊人”的电力和水,并使我们走上了需要迅速改变方向的“不可持续的路径”。
将Gemini 2.5 Pro投入测试
量化从一个AI模型到另一个AI模型的改进可能很棘手,这就是为什么LMARENA这样的基准有用的原因。我缺乏将Gemini 2.5 Pro真正进行测试所需的专家科学或编程知识,尽管与以前的模型一样,我能够在几分钟之内创建一些简单的Web应用程序(例如在线计时器)。
我确实知道查尔斯·狄更斯(Charles Dickens)荒凉的房子,所以我将Gemini 2.5 Pro设置为文本。它给了我对情节的准确摘要,并对所使用的不同叙述设备进行了巧妙的评估(这在我的学习日子里确实对我有所帮助)。它还将这本书转换为一部相当出色的三幕结构,以使其立即在其“思想”中持有很多东西的证据。
到目前为止,您如何看待?
较旧的Gemini 2.0 Flash能够回答相同的荒凉的房子也可以准确提示,但是Gemini 2.5 Pro的响应更长,更详细,更少,更聪明,证明了额外的“推理”可以使用。Gemini 2.0 Flash模型还必须将电影改编分为三个响应,这可能是由于它试图处理的文本量大量。
Google提供了它自己的例子在Gemini 2.5 Pro的功能中,显示了如何通过单个提示来制作简单的无尽跑步者游戏。当显示代码输出的演示视频已加速时,游戏确实可以正常工作并且精心设计,这是单个自然语言提示的令人印象深刻的最终结果。有也是整洁的网络演示数字鱼四处游泳。
在网络上的其他地方,新的AI模型正在广泛测试中。软件工程师和独立人工智能研究员西蒙·威利森(Simon Willison)进行了几次测试涵盖图像创建,音频转录和代码生成,并且非常喜欢Gemini 2.5 Pro能够提出的内容。
AI开发的疯狂速度没有任何迹象表明很快就会放慢速度,我们可以期望在不久的将来出现更多的Gemini 2.5型号。Google DeepMind AI实验室的Koray Kavukcuoglu说:“我们欢迎反馈,因此我们可以快速提高双子座的令人印象深刻的新能力,这一切都是使我们的AI更有帮助的目标。”