Two women look at their mobile phones displaying the logo of Google in Ankara, Turkiye on September 03, 2024.

美国有线电视新闻网~ 

谷歌最新的人工智能工具“Whisk”允许人们上传照片以获取由人工智能生成的组合图像,甚至无需用户输入任何文本来解释他们想要的内容。

用户可以输入描述主题、环境和风格的图像,然后 Whisk 将所有内容合并为一张图像。

谷歌在一份声明中表示,Whisk 是一种快速激发灵感的“创意工具”博客文章,而不是“传统的图像编辑器”。本质上,Whisk 旨在作为一种有趣的人工智能功能,而不是作为精致的专业工作的东西。

谷歌和 OpenAI 等大型科技公司正在竞相发布消费产品,展示这项时髦新技术的用途,尽管反对者警告称,人工智能发展缺乏护栏会给人类带来危险。

自从 OpenAI 于 2021 年首次推出文本转图像创作工具 Dall-E 以来,人工智能生成艺术品的概念已经深入人心。淹没了社交媒体并成为消费者关注的焦点产品。Google 的 Whisk 是一款图像到图像生成器,建立在文本到图像生成器的流行概念之上。

使用 Whisk 的人们可以通过编辑输入并混合类别来生成不同的图像,从而“重新混合”最终图像 例如毛绒玩具、珐琅别针或贴纸。用户可以添加文字 如果他们想要指示某些细节,但不需要创建图像。

“Whisk 的设计目的是让用户以新颖且富有创意的方式重新混合主题、场景和风格,提供快速的视觉探索,而不是像素完美的编辑。”Google 实验室产品管理总监 Thomas Iljic 表示在一份声明中。

谷歌的 Whisk 建立在 DeepMind(谷歌于 2014 年收购的人工智能实验室)开发的生成式人工智能基础上。

A general view of the Google DeepMind offices after the announcement that Founder and CEO Demis Hassabis and senior research scientist, John M. Jumper, received the 2024 Nobel Prize for Chemistry on October 9, 2024 in London, England. Two Google DeepMind employees shared the 2024 Nobel Prize for Chemistry with David Baker, of the University of Washington, for discoveries related to the structure of proteins.

Whisk 的工作原理是使用 Google 的核心人工智能产品 Gemini(该产品于 2023 年 12 月推出),并将其与 Imagen 3(DeepMind 在 12 月发布的最新文本到图像生成器)配对。

当用户上传图像时,Gemini 会生成一个标题,并将其输入到 Imagen 3 中。该过程捕获了主题的“本质”,而不是精确的复制品,这允许重新混合最终图像,但也意味着最终产品可能会偏离提示。

谷歌在一份声明中表示,例如,生成的图像可能与提示图像具有不同的高度、发型或肤色。博客文章

当谷歌首先推出Gemini 是文本到图像创建者,二月份该公司最初面临强烈反对,因为该工具生成了历史上不准确的图像。

该公司表示,Whisk 首先作为 Google Labs 网站向美国用户开放,目前正处于开发的早期阶段。

OpenAI 最近也释放名为 Sora 的文本到视频生成器,突出了消费产品的竞争。

Wedbush Securities 董事总经理兼高级股票分析师丹·艾夫斯 (Dan Ives) 告诉 CNN,Whisk 是谷歌在人工智能和科技竞赛中的另一个“大展拳脚的时刻”。

“DeepMind 是 Google 的重要资产”,Ives 说道,并指出人工智能产品是 Google 2025 年新产品“宝库”的一部分,其中还包括新的 Android 操作系统与三星和高通合作构建。