AI 图像生成模型拥有大量视觉数据可供提取,以创建独特的输出。然而,研究人员发现,当模型被迫根据一系列缓慢变化的提示生成图像时,它会默认只使用少数视觉主题,从而最终形成通用风格。一个
研究发表在期刊上图案使用两个 AI 图像生成器 Stable Diffusion XL 和 LLaVA,并通过玩视觉电话游戏对它们进行测试。游戏是这样的:Stable Diffusion XL 模型会收到一个简短的提示,并需要生成一个图像——例如,“当我特别孤独地坐着,被大自然包围时,我发现一本正好有八页的旧书,用一种被遗忘的语言讲述了一个故事,等待着阅读和理解。”该图像被呈现给 LLaVA 模型,并要求该模型对其进行描述。然后,该描述被反馈给稳定扩散,后者被要求根据该提示创建一个新图像。这样持续了100轮。

就像人类电话游戏一样,原始图像很快就丢失了。这并不奇怪,尤其是如果您曾经见过其中之一延时视频人们要求人工智能模型再现图像不做任何改变,只是让图片很快变成与原来完全不同的东西。然而,令研究人员感到惊讶的是,这些模型默认只有少数看起来很通用的样式。在电话游戏的 1000 次不同迭代中,研究人员发现大多数图像序列最终都会落入 12 个主要主题中的一个。
在大多数情况下,这种转变是渐进的。有几次,都是突然发生的。但这几乎总是发生。研究人员并没有留下深刻的印象。在研究中,他们将常见的图像风格称为“视觉电梯音乐”,基本上就是您在酒店房间看到的挂画类型。最常见的场景包括海上灯塔、正式的室内装饰、城市夜景和乡村建筑等。
即使研究人员改用不同的模型来生成和描述图像,也会出现相同类型的趋势。研究人员表示,当游戏扩展到 1,000 回合时,在第 100 回合左右仍然会发生围绕某种风格的融合,但在这些额外的回合中会出现变化。但有趣的是,这些变化通常仍然源自流行的视觉主题之一。

那么这一切意味着什么呢?主要是人工智能并不是特别有创造力。在人类的电话游戏中,您最终会遇到极大的差异,因为每条消息的传递和听到方式都不同,而且每个人都有自己的内部偏见和偏好,这可能会影响他们收到的消息。人工智能则面临着相反的问题。无论最初的提示多么古怪,它总是默认为狭窄的样式选择。
当然,人工智能模型是从人类创建的提示中提取出来的,因此关于数据集和人类被吸引去拍照的内容有一些话要说。如果说这里有什么教训的话,也许就是模仿风格比教授品味容易得多。