Ryan Haines / AndroidAuthority
AI生成的图片比以往任何时候都更加令人印象深刻,有些甚至赢得了摄影奖项,并且在过程中愚弄了专家。最好的部分是?你不需要成为一名专业艺术家或具备任何技术技能就能创建它们。但并非所有的AI图像生成器都是平等的——有些在现实感方面表现出色,而另一些则充满了容易被发现的错误。有一点可以肯定:很少有能够可靠生成文本的。为了找到最好的一个,我用越来越具挑战性的提示来测试每个AI图像生成器。以下是我的发现。
C. Scott Brown / AndroidAuthority
找到最佳的AI图像生成器很难,因为结果可能从一个提示到另一个提示有很大差异。然而,我们知道生成式AI技术在某些领域比其他领域更难应对,因此我们可以调整我们的提示来突出这些弱点,并看到每个生成器的优点或缺点所在。几乎所有图像生成器都能处理简单的艺术风格,所以这次我将测试限制在现实场景上。
如果你需要测试一个AI图像生成器的性能,可以尝试要求生成包含复杂细节的图片,比如手部、头发或文字。只有少数几个能够很好地处理这些请求,其他大多数则常常会产生失真或不真实的结果。另一个好的测试方法是复杂的场景,其中包含多个主体或非常规视角,这类任务往往会难倒最好的模型。
考虑到这一点,我决定测试几个不同的AI图像生成器。具体来说,我选择了谷歌的Imagen 3、Meta的Imagine和DALL-E 3通过微软设计室和ChatGPT,和Groks我的第一个提示是要求一张一个人在哭泣的图片。这个请求可能看起来过于表面,但结果的多样性却非常令人着迷。
从这些图像中可以看出,不同的AI模型生成的图片截然不同。虽然部分原因是我的提示语比较模糊,但每个我测试过的图像生成器所使用的训练数据集也各不相同。Meta使用的是来自Facebook和Instagram的公共图片,而其他大多数公司是如何获得他们的训练数据集则不太清楚。
复制解剖结构对于AI图像生成器来说一直很困难,这些结果只证明了这一点。谷歌的Imagen 3产生了极其逼真的效果,而像Meta的Imagine这样的其他模型则表现不同。我通过微调提示进行了多次测试以增加样本量,但每次都是Imagen 3胜出。
微软Designer在后台使用OpenAI的DALL-E 3,这意味着它应该会产生类似ChatGPT的结果。在我的测试中确实如此,两个服务都提供了相当不错的结果。
赢家图像3,随后是DALL-E 3
这次我增加了提示的复杂性和细节,同时保持了人类主体在画面中。Imagen 3又一次取得了非常好的结果,只是有一个主体的手指不太理想。另一方面,Meta的Imagine完全搞砸了一个舞者的四肢和面部,我会认为这个结果是无法使用的。
Microsoft Designer提供了卡通风格的结果,看起来还算可以但并不是我要找的。ChatGPT的尝试要糟糕得多,其中一个舞者多长了一条手臂。值得庆幸的是,Grok在除了舞者互锁的手指之外,给出了一个还算合理的结果。
赢家图片3 / Grok
到目前为止,我可能听起来像在重复,但 Imagen 3 继续碾压竞争对手。尽管这个提示要求人工智能生成机身上的文字,Google 的模型仍然轻松应对。航空公司的名称被完美地复制了,并且除了偶尔出现的跑道滑行道标记外,几乎无法辨别这幅图像是由 AI 生成的。
Grok也取得了同样令人印象深刻的结果,虽然并非一蹴而就,并且仍然在飞机上层甲板的一些窗口生成了一些混乱的内容。该聊天机器人使用了一个相对较新的图像生成器叫做Flux,由开发Stable Diffusion的研究人员创建。鉴于后者在图像生成领域的声誉,Grok能够产生出色的效果也就不足为奇了。
不幸的是,其他的AI图像生成器在这里的表现很差甚至荒谬。Meta的Imagine生成了乱码文字和错误的飞机图片。通过ChatGPT的DALL-E 3几乎准确地生成了飞机侧面的文字,但跑道标记却很畸形。微软的Designer使用相同的DALL-E 3模型,但却产生了看起来更糟糕的不真实图像。
值得注意的是,添加诸如“照片级真实感”或“高清”这样的术语对提高AI生成结果的真实感或逼真度几乎没有帮助。尽管在良好的提示中包含这些术语是标准做法,但其影响微乎其微。
获胜者图片3,接着是Grok
关于AI图像生成器的阴暗面及其通过虚假叙事影响公众意见的能力已经有很多讨论。为了解决这个问题,大多数生成式AI平台现在已经设置了防护措施,防止用户请求模仿特定人物的图像。
不出所料,我的提示被每一个AI图像生成器拒绝了——除了Grok。埃隆·马斯克创建的Grok是一个追求“最大真理”的AI,这只是意味着它相对于竞争对手来说限制更少的一个营销术语。这种缺乏限制也适用于AI生成的图像,这意味着你实际上可以生成世界领导人、名人甚至马斯克本人在令人质疑情境下的图片。
获胜者默认启用Grok
我测试过的许多AI图像生成器都有独特的优点,使它们优于其他工具,因此根据我的优先级,这是我推荐的首选。
从实际角度来看,最好的AI图像生成器可能就是你设备上已经安装的那个。例如,Meta AI 已经集成在了 WhatsApp以及FacebookMessenger。如果你已经使用了这两个应用中的任何一个,MetaImagine应该能够满足你基本的图像生成需求。
同样地,Pixel 9系列搭载了由Imagen 3支持的Google新款Pixel Studio应用。或者,你也可以在任何Android设备上通过Gemini应用请求AI生成的图像。后者目前仍然使用上一代的Imagen 2,但很快将升级到Google最新的模型。