英语轻松读发新版了,欢迎下载、更新

Google Whisk 是一种使用图像提示创建 AI 视觉效果的新方法 - 以下是尝试方法

2024-12-22 09:00:00 英文原文

作者:Christian RowlandsSocial Links NavigationTechRadar contributor

A promotional image for Google Whisk, an experimental AI image generator
(图片来源:谷歌)
  • Google Whisk 使用图像作为输入,而不是基于文本的提示
  • 它基于 Google Imagen 3 生成式 AI 模型构建
  • 该实验工具可供美国用户免费试用

谷歌全新的人工智能工具让您更轻松地创建和重新混合视觉概念。Whisk 不会要求您描述您脑海中的想法,而是让您输入三种图像提示:一种用于主题,一种用于场景,一种用于风格。Whisk 负责剩下的工作,使其成为尝试不同想法的更直观的方式。

虽然大多数最好的人工智能图像生成器要求您编写详细的提示,Whisk 在幕后处理该问题。当您将图片作为灵感放入基于网络的 Whisk 界面时,Google 的双子座模型会自动分析它们并为每个内容编写详细的标题。然后将这些输入到图像3模型,以创建匹配图像。

例如,您可以放置​​一张汽车图像作为主题,并放置一张乡村风景照片作为场景。您可以添加水彩画作为样式,看看 Whisk 会创造什么。点击按钮,您将根据您的输入获得一对图像。

从这里,可以轻松地重新混合图像。该界面允许您指定其他基于文本的详细信息来调整结果。如果您需要灵感,您还可以轻松添加不同的源图像或掷骰子。新结果成对出现在提要中,使其成为一种直观的构思方式。您还可以选择通过显示文本提示并添加更多细节来优化图像。

搅拌一下

Whisk 简介:少提示,多玩 |Google 实验室 - YouTube Introducing Whisk: Prompt Less, Play More | Google Labs - YouTube

观看

虽然 Whisk 的设计目的是消除对基于文本的提示的需求,但 Google 提供了改进书面提示的选项,因为结果并不总是与源材料匹配。

在一个博客文章关于实验工具,谷歌解释说,Whisk“捕捉了你的主题的本质,而不是精确的复制品。”它的效果与 Gemini 对你提交的图像的分析一样有效。虽然这通常非常令人印象深刻,但它也无法进入您的脑海:您可能期望 Whisk 从图像中提取一个细节,而它聚焦于另一个细节。

该帖子进一步解释道: 由于 Whisk 仅从您的图像中提取一些关键特征,因此它可能会生成与您的期望不同的图像。例如,生成的对象可能具有不同的身高、体重、发型或肤色。我们了解这些功能可能对您的项目至关重要,而 Whisk 可能达不到要求,因此我们允许您随时查看和编辑底层提示。

订阅突发新闻、评论、观点、顶级技术交易等。

尽管存在这些缺点,Whisk 仍是 Google 现有人工智能工具的一个有趣应用。底层生成模型与您通过其文本界面与 Gemini 聊天相同。不过,通过依赖图像输入,Whisk 为视觉创作者提供了一种更容易、更直观的方式来发挥他们的想法。

根据数字创意人员的早期反馈,Google 将 Whisk 称为“一种新型创意工具”,旨在“快速视觉探索,而不是像素完美的编辑”。

如何尝试 Google Whisk

Google Whisk 目前仅适用于美国用户。如果您在那里,您可以通过网络浏览器尝试一下:labs.google/whisk。该实验工具完全免费。

您使用 Whisk 的体验数据将反馈给 Google,以帮助完善和开发未来的 AI 产品。

您可能还喜欢...

克里斯曾担任 Stuff 的新闻编辑,现在在他的热带办公室撰写有关科技的文章。出于对可持续发展事物的关注,他还热衷于相机、老爷车和任何随着时间的推移而变得更好的装备。

关于《Google Whisk 是一种使用图像提示创建 AI 视觉效果的新方法 - 以下是尝试方法》的评论


暂无评论

发表评论

摘要

谷歌推出了 Whisk,这是一种实验性人工智能工具,允许用户使用三种图像提示(主题、场景、风格)而不是基于文本的描述来生成图像。Whisk 基于 Google 的 Imagen 3 模型构建,可在美国通过网络免费访问,旨在使视觉概念创建更加直观和易于访问。用户可以使用其他详细信息或通过显示和编辑底层文本提示(如有必要)来优化结果。Whisk 使用 Google 的 Gemini AI 模型来分析输入图像并生成相应的视觉效果,尽管预期结果与生成结果之间可能存在不匹配,但为创意构思提供了一种新方法。