- Google Whisk 使用图像作为输入,而不是基于文本的提示
- 它基于 Google Imagen 3 生成式 AI 模型构建
- 该实验工具可供美国用户免费试用
谷歌全新的人工智能工具让您更轻松地创建和重新混合视觉概念。Whisk 不会要求您描述您脑海中的想法,而是让您输入三种图像提示:一种用于主题,一种用于场景,一种用于风格。Whisk 负责剩下的工作,使其成为尝试不同想法的更直观的方式。
虽然大多数最好的人工智能图像生成器要求您编写详细的提示,Whisk 在幕后处理该问题。当您将图片作为灵感放入基于网络的 Whisk 界面时,Google 的双子座模型会自动分析它们并为每个内容编写详细的标题。然后将这些输入到图像3模型,以创建匹配图像。
例如,您可以放置一张汽车图像作为主题,并放置一张乡村风景照片作为场景。您可以添加水彩画作为样式,看看 Whisk 会创造什么。点击按钮,您将根据您的输入获得一对图像。
从这里,可以轻松地重新混合图像。该界面允许您指定其他基于文本的详细信息来调整结果。如果您需要灵感,您还可以轻松添加不同的源图像或掷骰子。新结果成对出现在提要中,使其成为一种直观的构思方式。您还可以选择通过显示文本提示并添加更多细节来优化图像。
搅拌一下
Whisk 简介:少提示,多玩 |Google 实验室 - YouTube
虽然 Whisk 的设计目的是消除对基于文本的提示的需求,但 Google 提供了改进书面提示的选项,因为结果并不总是与源材料匹配。
在一个博客文章关于实验工具,谷歌解释说,Whisk“捕捉了你的主题的本质,而不是精确的复制品。”它的效果与 Gemini 对你提交的图像的分析一样有效。虽然这通常非常令人印象深刻,但它也无法进入您的脑海:您可能期望 Whisk 从图像中提取一个细节,而它聚焦于另一个细节。
该帖子进一步解释道: 由于 Whisk 仅从您的图像中提取一些关键特征,因此它可能会生成与您的期望不同的图像。例如,生成的对象可能具有不同的身高、体重、发型或肤色。我们了解这些功能可能对您的项目至关重要,而 Whisk 可能达不到要求,因此我们允许您随时查看和编辑底层提示。
尽管存在这些缺点,Whisk 仍是 Google 现有人工智能工具的一个有趣应用。底层生成模型与您通过其文本界面与 Gemini 聊天相同。不过,通过依赖图像输入,Whisk 为视觉创作者提供了一种更容易、更直观的方式来发挥他们的想法。
根据数字创意人员的早期反馈,Google 将 Whisk 称为“一种新型创意工具”,旨在“快速视觉探索,而不是像素完美的编辑”。
如何尝试 Google Whisk
Google Whisk 目前仅适用于美国用户。如果您在那里,您可以通过网络浏览器尝试一下:labs.google/whisk。该实验工具完全免费。
您使用 Whisk 的体验数据将反馈给 Google,以帮助完善和开发未来的 AI 产品。