作者:By Webb Wright June 30, 2025
我们曾经有过自动驾驶汽车和机器人女仆。取而代之的是,我们看到了人工智能系统的兴起,这些系统可以在国际象棋中击败我们,分析巨大的文字并构成十四行诗。这一直是现代时代的最大惊喜之一:对于机器人而言,人类很容易的身体任务非常困难,而算法越来越有能力模仿我们的智力。
长期困扰研究人员的另一个惊喜是那些算法的诀窍是因为他们自己的奇怪的创造力。
扩散模型是图像生成工具(例如Dallâe,Imagen和稳定扩散)的骨干,旨在生成对其训练的图像的碳副本。但是,实际上,它们似乎即兴创造了图像中的元素,以创建新的东西 - 不仅是毫无意义的色彩斑点,而且具有语义含义的连贯图像。这是扩散模型背后的悖论。朱利奥·比洛利(Giulio Biroli)他说,这是巴黎的AI研究人员和物理学家:如果他们工作得很好,他们应该记住,”他说。但是他们实际上没有能力制作新样本。
要生成图像,扩散模型使用称为denoising的过程。他们将图像转换为数字噪声(像素的不一致集合),然后将其重新组装。这就像一再将绘画通过碎纸机放在剩下的只是一堆细灰尘,然后将碎片重新拼凑在一起。多年来,研究人员一直想知道:如果模型只是重新组装,那么新颖性如何进入图片中?就像将切碎的绘画重新组装成全新的艺术品一样。
现在,两名物理学家提出了一个令人震惊的主张:它是DeNoising过程本身的技术缺陷,从而导致扩散模型的创造力。在纸这将在机器学习2025的国际会议上介绍,二人组开发了一种训练的扩散模型的数学模型,以表明他们所谓的创造力实际上是确定性的过程 - 其建筑的直接,不可避免的后果。
通过阐明黑匣子的扩散模型,新研究可能会对未来的AI研究具有很大的影响,甚至可能是我们对人类创造力的理解。本文的真正优势在于,它对某些非常不平凡的事情做出了非常准确的预测。Luca Ambrogioni,荷兰Radboud大学的计算机科学家。
梅森·卡姆(Mason Kamb),一名研究生在斯坦福大学学习应用物理学的研究生,也是新论文的主要作者,长期以来一直对形态发生:生活系统自组装的过程。
了解人类和其他动物中胚胎发展的一种方法是通过称为图灵模式以20世纪的数学家艾伦·图灵(Alan Turing)的名字命名。图灵模式解释了细胞组如何将自己组织成不同的器官和四肢。至关重要的是,这种协调都在地方一级进行。没有首席执行官监督数万亿个细胞,以确保它们都符合最终的身体计划。换句话说,单个细胞没有某个身体的完成蓝图,可以在其上进行工作。他们只是为了响应邻居的信号而采取行动并进行更正。这种自下而上的系统通常会顺利运行,但是例如,它不时地用额外的手指产生手。
当第一个AI生成的图像开始在网上出现时,许多人看起来像是超现实主义的绘画,描绘了人类额外的手指。这些立即使Kamb想到了形态发生:闻起来像您对[自下而上]系统的期望,”他说。
AI研究人员知道到那时,生成图像时,扩散模型在生成图像时会采用几个技术捷径。第一个被称为局部性:他们一次只注意一个组或一个像素的补丁。第二个是它们在生成图像时遵守严格的规则:如果您只需在任何方向上移动几个像素,则系统将自动调整以对其生成的图像进行相同的更改。此功能称为翻译模棱两可,是保留相干结构的模型。没有它,创建逼真的图像要困难得多。
在某种程度上,由于这些功能,扩散模型不关注特定补丁将适合最终图像的地方。他们只是专注于一次生成一个补丁,然后使用称为得分函数的数学模型自动将其贴合到位,可以将其视为数字图灵模式。
长期以来,研究人员将当地性和均衡性作为脱索过程的局限性,即阻止扩散模型创建完美的图像复制品的技术怪癖。他们没有将他们与创造力联系在一起,这被视为一种高阶现象。
他们正在为另一个惊喜。
Kamb于2022年在实验室开始了他的研究生工作苏里亚·甘利(Surya Ganguli),斯坦福大学的物理学家,他还在神经生物学和电气工程方面任命。Openai于同年发行了Chatgpt,引起了现在被称为Generative AI的现场感兴趣。随着科技开发人员致力于构建不断增强的模型,许多学者仍然专注于了解这些系统的内部运作。