美国有线电视新闻网~
谷歌最新的人工智能工具“Whisk”允许人们上传照片以获取由人工智能生成的组合图像,甚至无需用户输入任何文本来解释他们想要的内容。
用户可以输入描述主题、环境和风格的图像,然后 Whisk 将所有内容合并为一张图像。
谷歌在一份声明中表示,Whisk 是一种快速激发灵感的“创意工具”博客文章,而不是“传统的图像编辑器”。本质上,Whisk 旨在作为一种有趣的人工智能功能,而不是作为精致的专业工作的东西。
谷歌和 OpenAI 等大型科技公司正在竞相发布消费产品,展示这项时髦新技术的用途,尽管反对者警告称,人工智能发展缺乏护栏会给人类带来危险。
自从 OpenAI 于 2021 年首次推出文本转图像创作工具 Dall-E 以来,人工智能生成艺术品的概念已经深入人心。淹没了社交媒体并成为消费者关注的焦点产品。Google 的 Whisk 是一款图像到图像生成器,建立在文本到图像生成器的流行概念之上。
使用 Whisk 的人们可以通过编辑输入并混合类别来生成不同的图像,从而“重新混合”最终图像 例如毛绒玩具、珐琅别针或贴纸。用户可以添加文字 如果他们想要指示某些细节,但不需要创建图像。
“Whisk 的设计目的是让用户以新颖且富有创意的方式重新混合主题、场景和风格,提供快速的视觉探索,而不是像素完美的编辑。”Google 实验室产品管理总监 Thomas Iljic 表示在一份声明中。
谷歌的 Whisk 建立在 DeepMind(谷歌于 2014 年收购的人工智能实验室)开发的生成式人工智能基础上。
Whisk 的工作原理是使用 Google 的核心人工智能产品 Gemini(该产品于 2023 年 12 月推出),并将其与 Imagen 3(DeepMind 在 12 月发布的最新文本到图像生成器)配对。
当用户上传图像时,Gemini 会生成一个标题,并将其输入到 Imagen 3 中。该过程捕获了主题的“本质”,而不是精确的复制品,这允许重新混合最终图像,但也意味着最终产品可能会偏离提示。
谷歌在一份声明中表示,例如,生成的图像可能与提示图像具有不同的高度、发型或肤色。博客文章。
当谷歌首先推出Gemini 是文本到图像创建者,二月份该公司最初面临强烈反对,因为该工具生成了历史上不准确的图像。
该公司表示,Whisk 首先作为 Google Labs 网站向美国用户开放,目前正处于开发的早期阶段。
OpenAI 最近也释放名为 Sora 的文本到视频生成器,突出了消费产品的竞争。
Wedbush Securities 董事总经理兼高级股票分析师丹·艾夫斯 (Dan Ives) 告诉 CNN,Whisk 是谷歌在人工智能和科技竞赛中的另一个“大展拳脚的时刻”。
“DeepMind 是 Google 的重要资产”,Ives 说道,并指出人工智能产品是 Google 2025 年新产品“宝库”的一部分,其中还包括新的 Android 操作系统与三星和高通合作构建。