英语轻松读发新版了,欢迎下载、更新

引入Gemini 2.5 Flash Image,我们最先进的图像模型

2025-08-26 14:19:42 英文原文

作者:Alisa Fortin Product Manager

今天,我们很高兴介绍双子座2.5闪光图像(又名Nano-Banana),我们最先进的图像生成和编辑模型。此更新使您能够将多个图像融合到单个图像中,保持角色的一致性,以使其具有丰富的讲故事,使用自然语言进行定向转换,并使用Gemini的世界知识来生成和编辑图像。

今年早些时候,当我们第一次在Gemini 2.0 Flash中推出本地图像时,您告诉我们您喜欢它的潜伏期低,成本效益和易用性。但是,您还给了我们反馈,您需要更高质量的图像和更强大的创意控制。

该模型现在可以通过双子座APIGoogle AI Studio对于开发人员和顶点AI对于企业。Gemini 2.5 Flash图像的价格为每100万个输出令牌30.00美元,每个图像为1290个输出令牌(每张图像0.039美元)。输入和输出的所有其他方式遵循Gemini 2.5 Flash定价

双子座2.5闪存图像

为了使Gemini 2.5 Flash图像更容易地建造,我们已经进行了重大更新Google AI Studio的构建模式(随之而来的更新)。在下面的示例中,您不仅可以通过自定义AI供电的应用程序快速测试Model的功能,而且还可以将其重新混合或仅通过一个提示即可使想法栩栩如生。当您准备共享您构建的应用程序时,您可以直接从Google AI Studio部署或将代码保存到GitHub。

尝试一个提示,例如“构建我一个图像编辑应用程序,该应用程序可以让用户上传图像并应用不同的过滤器”或选择一个预设模板并将其重新混合,所有这些都免费!


保持角色一致性

图像生成的基本挑战是在多个提示和编辑中保持角色或对象的外观。现在,您可以将相同的角色放在不同的环境中,在新环境中从多个角度展示单个产品,或者在保留主题的同时生成一致的品牌资产。

我们建立了一个Google AI Studio中的模板应用程序(您可以轻松地在上面自定义和氛围代码)以演示模型的角色一致性功能。

(序列缩短)

除了角色一致性之外,该模型在粘附于视觉模板方面也非常出色。我们已经看到开发人员探索了房地产清单卡,统一员工徽章或整个目录中的动态产品模型等领域。

gemini-2-5-image-editing-character-consistency

基于及时的图像编辑

Gemini 2.5 Flash图像可以使用自然语言进行有针对性的转换和精确的本地编辑。例如,该模型可以模糊图像的背景,在T恤中删除污渍,从照片中删除整个人,更改受试者的姿势,在黑白照片中添加颜色,或者您可以使用简单提示的其他内容。

为了显示这些功能,我们建立了一个AI Studio中的照片编辑模板应用,具有UI和及时的控件。

gemini-2-5-flash-prompt-based-image-editing

土著世界知识

从历史上看,图像生成模型在美学图像上表现出色,但缺乏对现实世界的深刻,语义的理解。借助Gemini 2.5 Flash图像,该模型受益于双子座世界知识,该知识解锁了新的用例。

为了证明这一点,我们建立了Google AI Studio中的模板应用程序这将一个简单的画布变成了互动教育导师。它展示了该模型的阅读和理解手绘图,帮助现实世界中的问题并遵循单个步骤复杂的编辑说明的能力。

(示例提示和模型结果)

多图像融合

Gemini 2.5 Flash图像可以理解并合并多个输入图像。您可以将一个对象放入场景中,并用配色方案或纹理重新安装一个房间,然后将图像与单个提示融合。

为了展示多图像融合,我们建立了一个Google AI Studio中的模板应用程序这使您可以将产品拖到新的场景中,以快速创建新的影像融合图像。

(序列缩短)

开始建造

查看我们的开发人员文档开始使用Gemini 2.5 Flash图像构建。该模型今天通过双子座APIGoogle AI Studio但在接下来的几周内将是稳定的。我们在此处突出显示的所有演示应用程序都是在Google AI工作室中编码的Vibe,因此只需提示即可重新混合并自定义。

OpenRouter.ai今天,与我们合作,将Gemini 2.5 Flash图像带到今天的3M+开发人员。这是当今480+ Live的OpenRouter上的第一个模型,可以生成图像。

我们也很高兴与fal.ai,是生成媒体的领先开发人员平台,使Gemini 2.5 Flash Image可用于更广泛的开发人员社区。

使用Gemini 2.5 Flash图像创建或编辑的所有图像都将包含一个看不见的合成数字水印,因此可以将它们确定为AI生成或编辑。

来自Google Import Genai从PIL导入图像来自IO Import Bytesio客户端= genai.client()提示=“我的猫在双子座星座下的一家高档餐厅里吃纳米 - 巴纳那的照片”image = image.open('/path/to/image.png')响应= client.models.generate_content(型号=“ gemini-2.5-flash-image-preview”,内容= [提示,图像],)candidates [0] .content.Parts:如果part.text不是没有:打印(part.text)elif part.inline_data不是没有:image = image.open(bytesio(part.inline_data.data)))image.save(“ generated_image.png”)

Python

复制

我们正在积极努力改善长篇文本渲染,甚至更可靠的角色一致性以及图像中的细节之类的事实表示。请继续向我们发送反馈开发人员论坛或继续x

我们可以等待看到您使用Gemini 2.5 Flash Image构建的内容!

关于《引入Gemini 2.5 Flash Image,我们最先进的图像模型》的评论


暂无评论

发表评论

摘要

引入Gemini 2.5 Flash Image(又名Nano-Banana),这是一种高级图像生成和编辑模型,允许用户融合多个图像,保持角色一致性,通过自然语言提示执行有针对性的转换,并利用世界知识来创建图像。与以前的版本相比,它可通过Gemini API和Google AI工作室以$ 0.039的价格获得,可增强质量和创意控制。开发人员可以在Google AI Studio中使用“构建模式”来轻松测试和部署自定义应用程序。该模型支持精确的编辑,例如背景模糊,对象去除和颜色调整,并了解手绘图和多图像融合。它包括一个无形的合成水印,用于识别AI生成的含量。