谷歌的新人工智能工具使用图像提示而不是文本 |美国有线电视新闻网商业频道

作者：John Towfighi

某些内容未正确加载。请稍后再回来查看。

美国有线电视新闻网～

谷歌最新的人工智能工具“Whisk”允许人们上传照片以获取由人工智能生成的组合图像，甚至无需用户输入任何文本来解释他们想要的内容。

用户可以输入描述主题、环境和风格的图像，然后 Whisk 将所有内容合并为一张图像。

谷歌在一份声明中表示，Whisk 是一种快速激发灵感的“创意工具”博客文章，而不是“传统的图像编辑器”。本质上，Whisk 旨在作为一种有趣的人工智能功能，而不是作为精致的专业工作的东西。

谷歌和 OpenAI 等大型科技公司正在竞相发布消费产品，展示这项时髦新技术的用途，尽管反对者警告称，人工智能发展缺乏护栏会给人类带来危险。

自从 OpenAI 于 2021 年首次推出文本转图像创作工具 Dall-E 以来，人工智能生成艺术品的概念已经深入人心。淹没了社交媒体并成为消费者关注的焦点产品。Google 的 Whisk 是一款图像到图像生成器，建立在文本到图像生成器的流行概念之上。

使用 Whisk 的人们可以通过编辑输入并混合类别来生成不同的图像，从而“重新混合”最终图像例如毛绒玩具、珐琅别针或贴纸。用户可以添加文字如果他们想要指示某些细节，但不需要创建图像。

“Whisk 的设计目的是让用户以新颖且富有创意的方式重新混合主题、场景和风格，提供快速的视觉探索，而不是像素完美的编辑。”Google 实验室产品管理总监 Thomas Iljic 表示在一份声明中。

谷歌的 Whisk 建立在 DeepMind（谷歌于 2014 年收购的人工智能实验室）开发的生成式人工智能基础上。

Whisk 的工作原理是使用 Google 的核心人工智能产品 Gemini（该产品于 2023 年 12 月推出），并将其与 Imagen 3（DeepMind 在 12 月发布的最新文本到图像生成器）配对。

当用户上传图像时，Gemini 会生成一个标题，并将其输入到 Imagen 3 中。该过程捕获了主题的“本质”，而不是精确的复制品，这允许重新混合最终图像，但也意味着最终产品可能会偏离提示。

谷歌在一份声明中表示，例如，生成的图像可能与提示图像具有不同的高度、发型或肤色。博客文章。

当谷歌首先推出Gemini 是文本到图像创建者，二月份该公司最初面临强烈反对，因为该工具生成了历史上不准确的图像。

该公司表示，Whisk 首先作为 Google Labs 网站向美国用户开放，目前正处于开发的早期阶段。

OpenAI 最近也释放名为 Sora 的文本到视频生成器，突出了消费产品的竞争。

Wedbush Securities 董事总经理兼高级股票分析师丹·艾夫斯 (Dan Ives) 告诉 CNN，Whisk 是谷歌在人工智能和科技竞赛中的另一个“大展拳脚的时刻”。

“DeepMind 是 Google 的重要资产”，Ives 说道，并指出人工智能产品是 Google 2025 年新产品“宝库”的一部分，其中还包括新的 Android 操作系统与三星和高通合作构建。

OC