谷歌已经宣布一个名为 Whisk 的新人工智能工具允许您使用其他图像作为提示来生成图像,而不需要长文本提示。
借助 Whisk,您可以提供图像来建议您想要的 AI 生成图像的主题、场景和风格,并且您可以针对这三件事中的每一项向 Whisk 提示多张图像。(如果需要,您也可以填写文本提示。)如果您手头没有图像,您可以单击骰子图标,让 Google 为提示填写一些图像(尽管这些图像也 似乎是人工智能生成的)。如果您想添加有关您正在查找的图像的额外详细信息,您还可以在流程结束时在文本框中输入一些文本,但这不是必需的。
然后,Whisk 将生成图像和每个图像的文本提示。如果您对结果满意,可以收藏或下载图像,也可以通过在文本框中输入更多文本或单击图像并编辑文本提示来优化图像。
截图由 Jay Peters / The Verge 提供
在一篇博文,谷歌强调,Whisk 的设计目的是“快速视觉探索,而不是像素完美的编辑”。该公司还表示,Whisk 可能“达不到目标”,这就是为什么它可以让你编辑底层提示。
在我编写这个故事时使用该工具的几分钟内,修补它非常有趣。图像需要几秒钟才能生成,这很烦人,虽然图像有点奇怪,但我生成的所有内容迭代起来都很有趣。
谷歌表示 Whisk 使用其 Imagen 3 图像生成模型的“最新”迭代,今天宣布的。谷歌还推出了维奥2,其视频生成模型的下一个版本,该公司表示,该模型能够理解“电影摄影的独特语言”,并且与其他模型(其他模型之一)相比,它会产生诸如额外手指之类的幻觉——频率较低可能是OpenAI 的 Sora)。Veo 2 将首先在 Google 的 VideoFX 上推出,您可以将其列入 Google 实验室的候补名单,并将在明年某个时候扩展到 YouTube Shorts(其他产品)。