我们曾经答应过自动驾驶汽车和机器人女仆。相反,我们已经看到了人工智能可以在国际象棋中击败我们的系统,分析大量文本并编写十四行诗。这一直是现代时代的最大惊喜之一:对于机器人而言,人类很容易的身体任务非常困难,而算法越来越有能力模仿我们的智力。
长期以来,长期困扰研究人员的另一个惊喜是那些算法的诀窍,他们自己奇怪的创造力。
扩散模型是图像生成工具(例如Dallâe,Imagen和稳定扩散)的骨干,旨在生成对其训练的图像的碳副本。但是,实际上,它们似乎即兴创造了图像中的元素,以创建新的东西 - 不仅是毫无意义的色彩斑点,而且具有语义含义的连贯图像。这是扩散模型背后的“悖论”。Giulio Biroli,他说,巴黎的AI研究员和物理学家在巴黎的Rieure:“如果他们工作得很完美,他们应该记住,”他说。“但是他们没有 - 实际上他们能够生产新样本。”
要生成图像,扩散模型使用称为denoising的过程。他们将图像转换为数字噪声(像素的不一致集合),然后将其重新组装。这就像反复将绘画通过碎纸机放置,直到您剩下的只是一堆细灰尘,然后将碎片重新整理在一起。多年来,研究人员一直想知道:如果模型只是重新组装,那么新颖性如何进入图片中?这就像将切碎的绘画重新组装成全新的艺术品一样。
现在,两名物理学家提出了一个令人震惊的主张:是denoising过程本身的技术缺陷导致了扩散模型的创造力。在纸这将在机器学习2025的国际会议上介绍,二人组开发了一种训练的扩散模型的数学模型,以表明他们所谓的创造力实际上是确定性的过程 - 其建筑的直接,不可避免的后果。
通过阐明黑匣子的扩散模型,这项新研究可能对未来的AI研究,甚至可能是我们对人类创造力的理解。“本文的真正优势在于,它对某些非常不平凡的事情做出了非常准确的预测。”Luca Ambrogioni,荷兰Radboud大学的计算机科学家。
梅森·卡姆(Mason Kamb),一名研究生在斯坦福大学学习应用物理学的研究生,也是新论文的主要作者,长期以来一直对形态发生:生活系统自组装的过程。
了解人类和其他动物胚胎发展的一种方法是通过所谓的图灵模式以20世纪的数学家艾伦·图灵(Alan Turing)的名字命名。图灵模式解释了细胞组如何将自己组织成不同的器官和四肢。至关重要的是,这种协调都在地方一级进行。没有首席执行官监督数万亿个细胞,以确保它们都符合最终的身体计划。换句话说,单个细胞没有一些可以在其上基于其工作的身体的完成蓝图。他们只是采取行动并纠正邻居的信号。这种自下而上的系统通常会顺利运行,但是例如,它不时地用额外的手指产生手。
当第一个AI生成的图像开始在网上出现时,许多人看起来像是超现实主义的绘画,描绘了人类额外的手指。这些立即使Kamb想到了形态发生:“它闻起来像您对[自下而上]系统的失败,”他说。
AI研究人员知道到那时,生成图像时,扩散模型在生成图像时会采用几个技术捷径。第一个被称为局部性:他们一次只注意一个小组或“补丁”。第二个是它们在生成图像时遵守严格的规则:如果您只需在任何方向上移动几个像素,则系统将自动调整以对其生成的图像进行相同的更改。该功能称为翻译均值,是该模型保留相干结构的方式。没有它,创建逼真的图像将非常困难。
在某种程度上,由于这些功能,扩散模型不关注特定补丁将适合最终图像的位置。他们只是专注于一次生成一个补丁,然后使用称为得分函数的数学模型自动将其贴合到位,可以将其视为数字图灵模式。
长期以来,研究人员将当地性和均衡性作为脱索过程的局限性,即阻止扩散模型创建完美的图像复制品的技术怪癖。他们没有将他们与创造力联系起来,这被视为一种高阶现象。
他们正在为另一个惊喜。
在本地制作
Kamb于2022年在实验室开始了他的研究生工作苏里亚·甘利(Surya Ganguli),斯坦福大学的物理学家,他还在神经生物学和电气工程方面任命。Openai于同年发行了Chatgpt,引起了现在被称为Generative AI的现场感兴趣。随着科技开发人员致力于构建不断增强的模型,许多学者仍然专注于了解这些系统的内部运作。
为此,Kamb最终提出了一个假设,即区域性和均衡性会导致创造力。这引起了诱人的实验可能性:如果他可以设计一个系统以对区域和均衡性进行优化,那么它应该像扩散模型一样行事。这个实验是他的新论文的核心,他与Ganguli写作为他的合着者。
Kamb和Ganguli将其系统称为Equivariant本地分数(ELS)机器。它不是训练有素的扩散模型,而是一组方程,可以在分析上仅基于位置和贬值的机制来分析地位图像的组成。然后,他们拍摄了一系列已转换为数字噪声的图像,并通过ELS机器和许多强大的扩散模型(包括Resnets和unets)运行了它们。
Ganguli说:结果令人震惊:总体上,ELS机器能够以90%的平均准确度与受过训练的扩散模型的输出相同 - 这是“在机器学习中闻所未闻”的结果,Ganguli说。
结果似乎支持Kamb的假设。他说:“一旦您强加了当地,[创造力]是自动的;它自然而然地脱离了动态。”他发现,限制了扩散模型在转化过程中的关注窗口的机制迫使他们专注于单个贴片,而不管它们最终适合最终产品的位置,他发现它们可以使他们的创造力变得非常相同。同样,在扩散模型中看到的额外的现象是该模型超固定的直接副产品,该超固定在生成局部像素斑块的情况下而没有任何更广泛的背景。
为这个故事采访的专家普遍认为,尽管Kamb和Ganguli的论文阐明了扩散模型中创造力背后的机制,但仍然很神秘。例如,大型语言模型和其他AI系统似乎也表现出创造力,但它们并没有利用本地性和模棱两可。
Biroli说:“我认为这是故事的一个非常重要的部分,但这不是整个故事。”
创造创造力
研究人员首次展示了如何将扩散模型的创造力视为脱索过程本身的副产品,该过程可以通过数学上形式化并以前所未有的高度准确性进行预测。几乎就像神经科学家把一群人类艺术家纳入了MRI机器,发现其创造力背后的一种共同的神经机制可以写下来作为一组方程式。
与神经科学的比较可能超出了仅仅是隐喻:Kamb和Ganguli的工作也可以提供对人类思想的黑匣子的见解。佐治亚理工学院和IBM Research的机器学习研究员本杰明·胡佛(Benjamin Hoover)说:“人类和人工智能的创造力可能没有那么不同。”研究扩散模型。“我们根据自己的经验,梦dream以求,听到或渴望的事物来组装事物。AI也只是从看到的东西和要求做什么来组装构件。”根据这种观点,人类和人工创造力都可能源于对世界的不完全理解:我们都尽力填补我们知识的空白,时不时地产生了一些新颖而有价值的东西。也许这就是我们所说的创造力。
原始故事经许可转载Quanta杂志,由西蒙斯基金会(Simons Foundation)支持的编辑独立出版物。