作者:By John Pavlus October 7, 2024
为了更好地理解机器是如何学习的,Lenka Zdeborová 将它们视为物理材料。
作为捷克共和国的一名青少年,_lenka zdeborová_(打开一个新的标签页)她在伊萨克·阿西莫夫的一部小说中窥见了自己的未来。阿西莫夫的“基地”系列中有一个角色发明了一种数学方法,通过平均数十亿个个体的随机行为来预测整个文明的发展路径。这个概念给她留下了“令人着迷的感觉”,Zdeborová回忆道——当她后来遇到一种可以实际应用于理解大量不可预测元素的方法时,这种感觉再次出现。
“我意识到,‘天啊,阿西莫夫只是在描述统计物理学,’”她说,指的是一个使用适用于单个分子的规则来描述物质整体性质的学科。作为布拉格查理大学物理硕士生时,她沉迷于其预测能力。然后,在攻读博士学位期间,她的导师向她展示了一篇论文(打开一个新的标签页)将统计物理学的技术应用于理论计算机科学——即对计算和算法行为的数学研究。那种熟悉的感受以加倍的程度回来了。
“那篇论文完全吸引了我,”Zdeborová说。“我一直以为要做计算机科学就必须是个黑客,对Linux了如指掌。我意识到理论计算机科学和理论物理一样迷人,并且我说,‘好吧——这就是我想做的。’”
兹德博罗瓦现在领导着计算统计物理学实验室(打开一个新的标签页)她在洛桑联邦理工学院的工作目前集中在物质相变的物理原理上,例如水结成冰的过程,这些原理如何帮助建模算法的行为,特别是用于机器学习的算法。
夸塔(注意:"Quanta"在特定上下文中可能指“量子”,但没有更多语境信息,这里直接音译)与Zdeborová讨论了水和算法之间的相似性,用物理学来理解大型语言模型,并追求不合理的科学目标。为了清晰起见,采访经过了浓缩和编辑。
我会说上述所有内容。我对的问题主要集中在计算机科学和机器学习领域。但在理论计算机科学中,一切都应该是形式上被证明的,每一个细节都不例外。而在今天的机器学习领域,这种情况已经不再发生了——它太复杂了。
因此,从方法论的角度来看,我觉得自己像一个理论物理学家,因为在物理学中,你可以用虽然可能没有正式数学证明但仍然具有数学严谨性的理论来解释现象。
通常教给学生关于理论计算机科学的内容是专注于最坏情况——即那些使问题难以计算的实例。这就是该领域开始的方式;这也是我们拥有漂亮成果的地方。但是最坏情况与典型情况之间存在差异。机器学习就是这种情况的一个明显例子。即使在非常高维度的数据上——比如包含数百万像素的医学影像,其中我们要检测某些疾病标志物——相关的问题实例通常并不像最坏的情况那样计算难度大。
这就是统计物理学发挥作用的地方,因为在历史上,这个科学领域处理过这些高维问题。当你想要描述许多分子同时相互作用的行为时,统计物理学引入了概率分布。这些是数学对象,在描述给定算法执行时数据位如何相互作用的形式上非常相似。只是统计物理学是在一个世纪前开始的,那时计算机科学甚至都不存在。幸运的是,到我在2000年代进行博士研究时,这两个学科已经意识到它们有许多共同之处。
在两种情况下,从微观描述中提取系统的宏观行为都是困难的。
即使牛顿定律和量子力学可以给你一个非常详细的水分子相互作用的描述,我们如何推导出水会在零摄氏度结冰呢?这根本不是显而易见的!甚至到了20世纪40年代这个问题也没有解决。而且至今仍有许多问题关于水的相变,特别是在高压下的情况。
同样,在计算机科学中,有一些定义非常简单的问题以及相对简单的算法,但我们不知道在什么条件下它们会工作。在我的博士论文中,我们研究了图着色问题,这个问题一个五岁的孩子都能理解。你有若干点,其中一些点通过边相连形成一个图。你需要用三种颜色中的任意一种给每个点上色,并且如果两个点是相连的,则它们不能使用相同的颜色。那么你能将这个图正确地着色吗?
对于任何用来解决这个问题的算法,你都能理解它,甚至可以编写它,并且它可以运行。但如果我问:“你能告诉我这个算法在什么情况下会工作,在什么情况下不会工作吗?”对于大多数算法来说,我们并不知道。而这基本上就是理论计算机科学的整体现状:即使对于像这样的简单问题,当我们开始询问关于算法行为的自然问题时,我们往往没有答案。
我们研究的相变并不是字面上的物理变化,比如水变成冰。但它们是类似的,在某些条件下,系统的行为会突然且剧烈地改变。在神经网络的情况下,最早被描述的转变之一是如何学习效率依赖于训练数据量的变化。
你取一个从高维数据(如包含数百万像素的图像)中学习的神经网络,然后在某些简化的设置下分析,为了使网络以一定的精度学会某个函数需要多少训练样本。你会发现一种相变现象,在我们讨论的意义上,即该系统最佳性能的突然变化。这些条件可以告诉你学习任务的难易程度以及是否值得寻找更好的算法。
最近的工作中,我们做了找到一个相变点(打开一个新的标签页)在简化版本的大语言模型的性能表现中,但也有趣的是过渡两边两个阶段的性质。
在物理学中,相变的数学描述中有某些量我们称之为序参量。它们让你能够理解相变的实际含义。这使我们明白了磁性是关于原子排列的问题:在一个相中,整体排列较大;而在另一个(非磁性的)相中,则没有排列。
那是我们对语言模型的数学描述中出现的美好事物。有两个序参量,每个都有确切的意义。一个决定了学习过程是否很大程度上依赖于句子中单词的位置。另一个序参量则特别关乎每个词的意思,即语义。
当我们研究相变时,我们发现,在某个训练示例的阈值之下,只有位置信息起作用——而并非语义。如果超过这个阈值有更多的示例,则只与语义相关的信息起作用。因此,可以说这是一种新的从基于位置的学习转向基于语义学习的相变过程,我们可以在一个简化的语言模型中进行表征。在我看来,这是向理解这一问题迈出的第一步。涌现属性在大型语言模型中,比如突然能够做算术运算、用希腊语回答问题等。
我非常喜欢的一个类比是热力学。在18世纪,当我们有了蒸汽机时,它引发了工业革命:铁路和公司等许多依靠蒸汽机运转的事物的出现,而当时人们并不理解热力学。几十年后才出现了对热力学的理解,这是为了想要理解蒸汽机而产生的。从那以后,很多其他的物理学理论也随之发展出来。
这可能是一个完全不合理的目标,但你知道,总得有人来提出机器学习的热力学。我很想成为那个提出者。如果不是我而是别人做到了,那也很好。但我一定会朝这个目标努力。
计算机科学家结合两种“优美”的证明方法