作者:Matthew S. Smith
对于人工智能图像生成来说,2024 年是相对平静的一年,至少与 2022 年和 2023 年获得的关注相比是这样。视频生成,受到诸如OpenAI 的 Sora,成为热门话题。
“我认为很多工具都看到了人工智能内容创作的发展方向,并且只是试图跟上时代的步伐,试图实现多元化[进入视频],”说罗斯·西蒙斯创意AI公司ZenRobot联合创始人。– 但我发现这些工具坚持自己擅长的事情,比如中途,占主导地位。
大多数现代人工智能图像生成器继续使用扩散模型。这种类型的人工智能模型是通过训练神经网络来预测逐渐添加到图像中的随机噪声来训练的。训练完成后,可以反转该过程,从随机噪声中创建独特的图像。然后,扩散模型与文本模型配对,文本模型将用户的文本提示转换为指导扩散模型结果的标记。
扩散模型得到了改进自 2022 年以来,但并没有发生根本性的变化,在过去的一年里,人们的注意力从模型本身转移到了它们所支持的软件工具上。目前最好的人工智能图像生成器速度快、易于使用,并提供更精细地控制图像生成的方法。
Midjourney 显然是专业图像生成的最爱。中途虽然实际上有数十种图像生成器可用,中途
是明显的领先者。“中途对我们来说是一个非常重要的工具,”说克丽丝·克莱默斯
,联合创始人阿姆斯特丹安全局。“它在艺术指导方面仍然表现出色。”西蒙斯对此表示同意,并表示他“主要”使用 Midjourney。《中途旅程》于 2022 年发布,因其细致、吸引人的图像和强烈的艺术风格而迅速赢得声誉。
它往往会生成具有生动、大胆的色彩和引人注目的外观的图像,从而吸引观众的注意力。Midjourney 的传播模式是专有的,只有订阅其名义在线服务才能使用。
创意专业人士喜欢 Midjourney 的用户界面,考虑到该工具的起源,它有点讽刺。该模型最初只能通过连接到拼凑在一起的用户身份验证系统的 Discord 聊天机器人来使用。然而,这种情况很快发生了变化,Midjourney 现在提供了一个漂亮的网络界面,在同行中脱颖而出。
Flux是2024年发布的最重要的新模型,可以支持图像编辑工具。通量虽然“中程”仍然受到人工智能创意人士的青睐,但 2024 年发布了一种主要的传播模型,该模型扮演了不同的角色:通量
。该模型的创建者是黑森林实验室,一家由 Stability AI 的三名前员工创立的公司(Stability AI 背后的公司)稳定扩散)。Symons 将 Flux 称为 2024 年最引人注目的新图像生成模型。“就真实性而言,它令人惊叹,”他说。
Cremers 表示同意,并表示“它非常适合照片写实主义,比 Midjourney 更适合。”Flux 还提供了强大的工具“内画和外画”,它允许模型通过删除不需要的对象或将图像扩展到其原始范围之外来编辑图像。
与《中途》的另一个对比是,Flux是一个开放模型,这意味着任何人都可以免费获取、使用和微调。它可以本地安装以在功能强大的家庭和办公室计算机上生成图像。
Leonardo.ai 通过针对具有特定需求的创意专业人士开辟了一个利基市场。Leonardo.ai / Fyfe Boyce Design
成立于2022年,莱昂纳多.ai迅速采取行动,将自己打造成寻求专业图像生成的个人和公司的领先选择。
尽管该公司确实于 2024 年发布了第一个内部基础模型 Phoenix,但它主要专注于创建以新方式使用现有生成模型的工具。Leonardo.ai 还提供 Flux,对于那些人来说,它是更好的选择之一无法在自己的硬件上运行 Flux。
“为了保持角色一致性,如果您生成的角色是有插图的或落在奇幻空间或 3D 中,我认为这很好,”西蒙斯说。这是通过支持实现的低秩适应(LoRA),它允许用户调整扩散模型以满足他们的需求。
Dall-E 3,可通过 OpenAI 获取聊天GPT,有一个图像编辑工具,用于在生成的图像中添加或删除对象。开放人工智能
OpenAI 的达尔-E是最早的图像生成器之一成为头条新闻。然而到了 2024 年,它被 OpenAI 视频生成工具 Sora 的炒作所掩盖,该工具最终12月发布。
尽管如此,Dall-E 仍然是比较突出的工具之一,特别是对于业余爱好者来说。Dall-E 现在是 ChatGPT 的一部分,可以快速生成合格的图像。2024 年 4 月的更新还添加了图像编辑功能,以帮助用户删除或更改 Dall-E 生成的图像的特定区域。
尽管只是一个“实验”,但 Google 的 ImageFX 可以生成具有出色真实感的详细图像。谷歌谷歌实验室是该公司“人工智能实验”的所在地,其中包括一个名为“AI 实验”的图像生成器
图像特效。虽然没有广泛宣传,并且与此列表中的其他工具相比有点准系统,但 ImageFX 在人工智能创意人士中赢得了声誉。
——这有点像一匹黑马。它没有被谈论,但它是一个很好的工具。它是免费的,您一次可以生成四张图像,而且图像质量非常好,”西蒙斯说。
ImageFX 具有简单的界面,鼓励用户输入简短的提示。它还提供了一个关键字列表,以引导用户提示模型可以轻松理解的文本。这种方法可以轻松生成具有特定风格感的详细图像。ImageFX 也是完全免费的,这对于休闲用户来说是一个优势。
虽然上述图像生成器在 2024 年抢尽风头,但它们并不是唯一值得关注的工具。宏伟因出色的图像升级而享有盛誉。韩国人工智能为第三方模型(包括 Flux)提供有吸引力的接口。
创意专业人士似乎对老牌公司的图像生成器不太热衷。Getty Images、Shutterstock 和 Adobe 已生成式人工智能服务,但缺乏 Midjourney 和 Flux 等领先者的关注度。克莱默斯指责用于训练的图像。“他们往往接受大量库存图像的培训,这反映在结果中。”
2025 年似乎可能会重演 2024 年。视频生成将继续成为人们关注的焦点,因为多家公司(尤其是谷歌)尚未发布其备受期待的模型。即便如此,西蒙斯认为,随着创意专业人士对这些工具越来越熟悉,他们将继续寻找使用图像生成器的新方法。
——我希望人们更多地了解人工智能的能力。有些事情你可以做,有些事情你不能做,”西蒙斯说。