作者:By Nick Todorov
这周我看到了一些奇怪的东西:留胡子的女人、六足驯鹿,还有一个开车的男人把头伸出挡风玻璃。但这些图像都不是真实的。我正在测试人工智能图像生成器以寻找最喜欢的,我的首选可能安装在旗舰安卓手机。
AI图像生成器将文本提示变成图片。2022 年,DALL-E、MidJourney 和 Stable Diffusion 等文本转图像 AI 模型引起了科技界的关注,它们的受欢迎程度飙升。这些仍然存在并且已经改进,但我最喜欢的是谷歌双子座。
Gemini 是谷歌的人工智能聊天机器人,我测试了它的图像生成能力以及九个替代方案。虽然远非完美,但这是我最满意的。它使用简单,只需几次迭代即可生成令人信服的图像。
要生成图像,请打开手机上的 Gemini 应用程序或访问网络上的 Google Gemini。然后,输入提示,几分钟后就会弹出一个图像。
与其他替代方案不同,Gemini 可以免费生成图像。但是,只有 Gemini Advanced 订阅者可以请求人物图像。将人形象化的能力2024 年初从双子座移除经过争议但已被改进并恢复。付费和免费用户可以获得由相同的人工智能模型(Google 的 Imagen 3)生成的高分辨率图片(2,048 x 2,048 像素)。
Gemini 无法生成包含儿童或名人等可识别人物的图像。对于暴力、性或令人不安的内容的请求不会被处理。谷歌的禁止使用政策该页面详细介绍了不可以使用其生成式人工智能的方式。
资料来源:Adobe
有数十种人工智能图像生成器,但 Gemini 的强大替代品来自您以前听说过的名字。ChatGPT 和 Microsoft 设计师利用 DALL-E 3 AI 模型,每天为您提供几张免费图像。根据我的经验,双子座的图像更加真实和准确。Adobe 的 Firefly 值得考虑用于虚构和艺术图像。当你要求任何需要看起来逼真的人的东西时,它就会崩溃。
Stable Diffusion、MidJourney 和 Flux.1 是 Gemini 最有价值的竞争对手,特别是对于专业应用程序。然而,我无法像我想要的那样彻底地测试它们。尽管如此,结果看起来还是很有希望的,并且在某些用途上可能会匹配或超过 Gemini 的能力。
上面的图像是使用 Google Gemini 生成的。
双子座让我想起了谷歌搜索的黄金时期。我输入我的请求,按 Enter 键,然后快速获得结果,不会产生摩擦或干扰。简单性和易用性是我喜欢 Gemini 的主要原因之一。我也喜欢生成的图像的高质量。通常,我会得到我所期望的。当我不这样做时,很容易请求修改,因为 Gemini 默认考虑以前的提示。
双子座会犯错误,也有缺点。例如,它不能很好地计算或拼写。您将很难准确无误地获取生成的图像中某些内容或任何文本的数量。我发现大多数人工智能图像生成器都会遇到同样的困难,除非它们针对工作进行了优化(就像 Ideogram 用于生成文本)。
我不认为 Gemini 是特定应用的理想图像生成器,但我相信它足以满足许多家庭和工作用途。以下是一些我想到的:
有利于 Gemini 的另一个因素是,只要您不希望有人参与您的设计,图像生成就可以免费使用。对于许多人来说,这将是他们第一次接触文本到图像的生成。感谢 Google 提供了一个可以广泛使用的有用工具。
在测试 Google Gemini 和替代图像生成器。这是一个充满新可能性的新世界,可以改变我们工作、娱乐和表达自己的方式。
Gemini 的人工智能图像生成有其局限性,但它的竞争对手也有其局限性。然而,并非所有这些都具有我在 Gemini 上看到的易于理解、直接的过程和令人信服的结果。这让它在我的书中占据了上风,如果人工智能再有几年的发展时间,我们会走多远,这令人兴奋。