2024-12-22 09:00:00 · 英文原文

Google Whisk 是一种使用图像提示创建 AI 视觉效果的新方法 - 以下是尝试方法

作者：Christian RowlandsSocial Links NavigationTechRadar contributor

A promotional image for Google Whisk, an experimental AI image generator

（图片来源：谷歌）

Google Whisk 使用图像作为输入，而不是基于文本的提示
它基于 Google Imagen 3 生成式 AI 模型构建
该实验工具可供美国用户免费试用

谷歌全新的人工智能工具让您更轻松地创建和重新混合视觉概念。Whisk 不会要求您描述您脑海中的想法，而是让您输入三种图像提示：一种用于主题，一种用于场景，一种用于风格。Whisk 负责剩下的工作，使其成为尝试不同想法的更直观的方式。

虽然大多数最好的人工智能图像生成器要求您编写详细的提示，Whisk 在幕后处理该问题。当您将图片作为灵感放入基于网络的 Whisk 界面时，Google 的双子座模型会自动分析它们并为每个内容编写详细的标题。然后将这些输入到图像3模型，以创建匹配图像。

例如，您可以放置一张汽车图像作为主题，并放置一张乡村风景照片作为场景。您可以添加水彩画作为样式，看看 Whisk 会创造什么。点击按钮，您将根据您的输入获得一对图像。

从这里，可以轻松地重新混合图像。该界面允许您指定其他基于文本的详细信息来调整结果。如果您需要灵感，您还可以轻松添加不同的源图像或掷骰子。新结果成对出现在提要中，使其成为一种直观的构思方式。您还可以选择通过显示文本提示并添加更多细节来优化图像。

搅拌一下

Whisk 简介：少提示，多玩 |Google 实验室 - YouTube Introducing Whisk: Prompt Less, Play More | Google Labs - YouTube

观看

虽然 Whisk 的设计目的是消除对基于文本的提示的需求，但 Google 提供了改进书面提示的选项，因为结果并不总是与源材料匹配。

在一个博客文章关于实验工具，谷歌解释说，Whisk“捕捉了你的主题的本质，而不是精确的复制品。”它的效果与 Gemini 对你提交的图像的分析一样有效。虽然这通常非常令人印象深刻，但它也无法进入您的脑海：您可能期望 Whisk 从图像中提取一个细节，而它聚焦于另一个细节。

该帖子进一步解释道：由于 Whisk 仅从您的图像中提取一些关键特征，因此它可能会生成与您的期望不同的图像。例如，生成的对象可能具有不同的身高、体重、发型或肤色。我们了解这些功能可能对您的项目至关重要，而 Whisk 可能达不到要求，因此我们允许您随时查看和编辑底层提示。

订阅突发新闻、评论、观点、顶级技术交易等。

尽管存在这些缺点，Whisk 仍是 Google 现有人工智能工具的一个有趣应用。底层生成模型与您通过其文本界面与 Gemini 聊天相同。不过，通过依赖图像输入，Whisk 为视觉创作者提供了一种更容易、更直观的方式来发挥他们的想法。

根据数字创意人员的早期反馈，Google 将 Whisk 称为“一种新型创意工具”，旨在“快速视觉探索，而不是像素完美的编辑”。

如何尝试 Google Whisk

Google Whisk 目前仅适用于美国用户。如果您在那里，您可以通过网络浏览器尝试一下：labs.google/whisk。该实验工具完全免费。

您使用 Whisk 的体验数据将反馈给 Google，以帮助完善和开发未来的 AI 产品。

您可能还喜欢...

克里斯曾担任 Stuff 的新闻编辑，现在在他的热带办公室撰写有关科技的文章。出于对可持续发展事物的关注，他还热衷于相机、老爷车和任何随着时间的推移而变得更好的装备。

关于《Google Whisk 是一种使用图像提示创建 AI 视觉效果的新方法 - 以下是尝试方法》的评论

暂无评论

发表评论

摘要

谷歌推出了 Whisk，这是一种实验性人工智能工具，允许用户使用三种图像提示（主题、场景、风格）而不是基于文本的描述来生成图像。Whisk 基于 Google 的 Imagen 3 模型构建，可在美国通过网络免费访问，旨在使视觉概念创建更加直观和易于访问。用户可以使用其他详细信息或通过显示和编辑底层文本提示（如有必要）来优化结果。Whisk 使用 Google 的 Gemini AI 模型来分析输入图像并生成相应的视觉效果，尽管预期结果与生成结果之间可能存在不匹配，但为创意构思提供了一种新方法。

OC