新研究可以使怪异的人工智能图像已成为过去

众所周知，生成人工智能 (AI) 很难创建一致的图像，经常会出现手指和面部对称等细节错误。此外，当提示生成不同图像尺寸和分辨率的图像时，这些模型可能会完全失败。

莱斯大学计算机科学家使用预先训练的扩散模型生成图像的新方法是一类生成人工智能模型，“通过向训练图像添加一层又一层的随机噪声来学习“，然后通过消除添加的噪声生成新图像，可以帮助纠正此类问题。

Moayed Haji Ali，莱斯大学计算机科学博士学生在西雅图电气和电子工程师协会 (IEEE) 2024 年计算机视觉和模式识别 (CVPR) 会议上发表的同行评审论文中描述了这种名为 ElasticDiffusion 的新方法。

”像 Stable Diffusion、Midjourney 和 DALL-E 这样的扩散模型创造了令人印象深刻的结果，生成相当逼真和逼真的图像，”Haji Ali 说。“但它们有一个弱点：它们只能生成方形图像。因此，如果您有不同的纵横比，例如在显示器或智能手表上，这些模型就会出现问题。”

如果您告诉像稳定扩散这样的模型来创建非方形图像（例如 16:9 的长宽比），用于构建生成图像的元素会重复。这种重复表现为图像或图像主体中看起来奇怪的畸形，例如有六个手指的人或奇怪拉长的汽车。

这些模型的训练方式也导致了这个问题。

“如果你只在特定分辨率的图像上训练模型，它们就只能生成具有该分辨率的图像，”计算机科学副教授 Vicente Ordez-Romn 说，他为 Haji Ali 与 Guha Balakrishnan 一起工作提供了建议电气和计算机工程助理教授。

Ordez-Romn 解释说，这是人工智能特有的一个问题，称为过度拟合，即人工智能模型过于擅长生成与其训练数据相似的数据，但不能偏离这些参数太远。

“您可以通过在更广泛的图像上训练模型来解决这个问题，但它很昂贵，并且需要大量的计算能力，数百甚至数千个图形处理单元”Ordez-Romn 说。

根据 Haji Ali 的说法，扩散模型使用的数字噪声可以转换为具有两种数据类型的信号：局部数据类型和全局数据类型。本地信号包含像素级细节信息，例如眼睛的形状或狗皮毛的纹理。全局信号包含更多图像的整体轮廓。

“扩散模型需要非方形纵横比帮助的一个原因是它们通常将局部和全局信息打包在一起，”Haji Ali 说道。在加入莱斯大学 Ordez-Romn 的研究小组攻读博士学位之前，他致力于合成人工智能生成的视频中的运动。研究。“当模型尝试复制该数据以解释非方形图像中的额外空间时，会导致视觉缺陷。”

Haji Ali 论文中的 ElasticDiffusion 方法采用不同的方法来创建图像。ElasticDiffusion 不是将两个信号打包在一起，而是将本地信号和全局信号分离为条件和无条件生成路径。它从无条件模型中减去条件模型，得到包含全局图像信息的分数。

之后，将具有局部像素级细节的无条件路径应用于象限中的图像，填充一次详细说明一个方格。图像长宽比应为多少以及图像是什么（狗、跑步的人等）的全局信息保持独立，因此人工智能不会混淆信号和重复数据。无论纵横比如何，结果都是更清晰的图像，不需要额外的训练。

“这种方法是利用模型的中间表示来扩展它们的成功尝试，以便获得全局一致性”Ordez-Romn 说道。

相对于其他扩散模型，ElasticDiffusion 的唯一缺点是时间。目前，Haji Ali 的方法制作图像所需的时间是原来的 6-9 倍。我们的目标是将其减少到与稳定扩散或 DALL-E 等其他模型相同的推理时间。

“我希望这项研究的目的是定义为什么扩散模型会生成这些更多重复的部分并且无法适应这些不断变化的长宽比，并且无法提出一个无论训练如何、在相同的推理时间内都能适应任何长宽比的框架。”Haji Ali 说道。

更多信息：ElasticDiffusion：通过全局本地内容分离实现免训练任意尺寸图像生成，2024 年 IEEE/CVF 计算机视觉和模式识别会议。作者：Moayed Haji-Ali、Guha Balakrishnan 和 Vicente Ordez-Romn，cvpr.thecvf.com/

项目页面：elasticdiffusion.github.io/

项目演示：replicate.com/moayedhajiali/elasticdiffusion

项目代码：github.com/MoayedHajiAli/ElasticDiffusion-官方

OC