作者:By Anil Ananthaswamy
1962年12月17日, 生命国际出版逻辑难题由15个句子组成,描述了一条街上的5座房屋。每句话都是一个线索不同的宠物,依此类推。故事的标题问:``谁拥有斑马?这样的问题被证明是对能力限制的衡量,实际上是当今的机器学习模型。
该问题也称为爱因斯坦的难题或谜语(可能是伪造归因),该问题测试了某种多类推理。Nouha Dziri,艾伦AI研究所的研究科学家及其同事们最近设定了基于变形金刚的大型语言模型(例如Chatgpt),以从事此类任务,并在很大程度上发现他们想要。dziri说:``兹里说,他们可能无法推理超出培训数据中所看到的艰巨任务。”或者至少他们进行近似,近似可能是错误的。
爱因斯坦的谜语需要从解决方案到子问题的较大解决方案,研究人员称之为组成任务。Dziri的团队表明,经过训练以预测序列的下一个单词的LLM,其中大多数是从根本上有限在解决组成推理任务的能力中。其他研究人员表明,在解决此类问题方面,变形金刚(大多数LLMS使用的神经网络结构)具有艰难的数学界限。科学家取得了一些成功,将变形金刚超过了这些限制,但越来越多的人看起来像短期修复。如果是这样,这意味着关于这些形式的人工智能的能力有基本的计算上限 - 这可能意味着该考虑其他方法了。
``这项工作确实有动力帮助社区做出这一决定,即变形金刚是否真的是我们要接受通用学习的建筑。”安德鲁·威尔逊,纽约大学的一名机器学习专家,不参与这项研究。
具有讽刺意味的是,LLM只能归咎于这一局限性之一。Dziri说,我们所有人都对自己是否真正推理感到好奇的原因是因为它们具有惊人的能力。” Dziri说。尽管他们的训练似乎很简单,但他们还是对涉及自然语言的任务感到眼花azz乱。在训练阶段,LLM显示了一个句子的片段,其中最后一个单词遮盖了(尽管从技术上讲,这总是一个单词)。该模型可以预测丢失的信息,然后从错误中学习。
最大的LLMS Openai S O1和GPT-4,Google的双子座,Anthropic的Claude train train on Internet上几乎所有可用的数据。结果,LLM最终学习了书面语言的语法和大部分语义知识的语法。这样的预训练模型可以进一步培训或微调,以完成复杂的任务超越简单的句子完成,例如汇总复杂的文档或生成代码来玩计算机游戏。结果是如此强大,以至于模型有时似乎能够推理。然而,它们也以明显和令人惊讶的方式失败了。
Dziri说,在某些任务上,它们的表现非常出色。在其他人身上,他们感到震惊。
进行基本乘法。标准LLM,例如Chatgpt和GPT-4,对此失败了。在2023年初,当Dziri的团队要求GPT-4乘以两个三位数的数字,最初仅取得了59%的时间。当它乘以两个四位数的数字时,准确性仅下降到4%。
该团队还测试了LLM在爱因斯坦的谜语等任务上,在那里的成功也有限。当难题涉及两所房屋的房屋时,GPT-4总是得到正确的答案。但是,当难题的复杂性增加到四座房屋时,每个房屋四个属性时,准确性下降至10%。对于原始版本生命国际五座房屋,每个房屋具有五个属性 - 成功率为0%。
Dziri的团队认为,LLM的培训数据中也没有足够的例子,因此他们以180万个乘以两个数字的例子对GPT-3进行了微调。然后,当他们向他们展示新问题时,LLM会使他们付出了目标,但前提是他们与培训期间所看到的相似。例如,培训数据包括两个三位数的乘法,以及具有四位数号码的两位数的数字,但是当要求模型将四位数的数字乘以具有三位数的数字时它只有2%的时间成功了。德齐里说,如果他们真正的推理和理解某些任务,应该得到隐式算法。”那不是她的团队所看到的。这对LLM的执行任务以及他们是否做出真正的推理提出了很多疑问。
在解决爱因斯坦的谜语时,团队观察到相同的模式:GPT-3在被要求回答拼图的更大版本时失败了。Dziri说,它模仿了它已经看到的东西,但它没有完全理解。”
当Dziri和她的合着者最终确定结果时,另一个团队正在采取另一种方法来理解为什么LLMS在作曲任务上努力。Binghui Peng在哥伦比亚大学的一名博士生时,他正在与他的一位顾问Christos Papadimitriou和同事合作,以了解为什么LLMS幻觉,或产生事实上错误的信息。现任斯坦福大学的博士后研究员彭(Peng)怀疑这是因为变形金刚似乎缺乏作曲的能力。
要理解为什么,想象一下我们喂了一个llm的两个信息:弗里德·里克·肖邦的父亲是尼古拉斯·肖邦,而尼古拉斯·肖邦(Nicolas Chopin)出生于1771年4月15日。frédâ©ric Chopin的父亲的出生日期?llm必须通过撰写或汇总不同的事实来回答。实际上,它需要回答以下嵌套的问题:â€的出生日期是什么(谁是父亲(frâdâ©dã©ric chopin)?)?)?一个答案,据说在这种情况下可能是由于无法解决组成任务而产生的。
彭想测试这个预感。他的团队首先研究一个简单的变压器的属性,一个只有一个单层,该层者在试图预测下一个单词时要注意句子单词的顺序和位置。(现代LLM有许多这样的层。)团队建立了一个链接在变压器层的复杂性和域大小之间,或表示问题所需的位数。通过关注这个简单的模型,他们证明了数学上的界限。peng说,如果此单层变压器中的参数总数小于域的大小,那么变形金刚就无法解决组成任务。”换句话说,只有一个变压器层的LLM在数学上清楚地限制了一个LLM。
尽管这是一个强大的理论结果,但其实际含义却明确,因为现代LLMS非常复杂。彭说,扩大我们的证据并不容易。因此,他的团队使用了另一种方法来研究更复杂的变压器的能力:他们转向计算复杂性理论,该理论研究了解决这些问题所需的资源问题,例如时间和记忆。
他们最终使用众所周知的猜想表明,即使多层变压器的计算能力在解决复杂的组成问题方面也受到限制。然后,在2024年12月,Peng及其同事在加利福尼亚大学伯克利分校发布了证明不依赖计算复杂性猜想 - 表明多层变压器确实无法解决某些复杂的组成任务。基本上,某些组成问题将始终超出基于变压器的LLM的能力。
peng说,如果您的模型变大,您可以解决更严重的问题。”但是,如果同时您还扩大了问题,那么对于较大的模型而言,这又变得越来越困难。这表明变压器体系结构具有固有的局限性。
需要明确的是,这不是LLM的终结。纽约大学的威尔逊指出,尽管有这种局限性,研究人员仍开始增加变形金刚,以帮助他们更好地处理算术。例如,汤姆·戈德斯坦,马里兰大学的计算机科学家及其同事添加了一个扭曲他们如何通过在每个数字中嵌入额外的位置信息来向正在训练添加的变压器呈现数字。结果,该模型可以在20位数字上进行训练,并且仍然可靠(精度为98%)增加了100位数字,而在没有额外位置嵌入的情况下训练的模型仅准确3%。威尔逊说,这表明您可以做一些基本干预措施。”这确实可以在这些问题上取得很大进步,而无需重新考虑整个架构。
克服LLM限制的另一种方法,不仅增加了模型的大小,还要在提示中提供问题的分步解决方案,这是一种称为一种称为一种称为的技术经过思考链提示。实证研究表明,这种方法可以使LLM(例如GPT-4)具有新发现的能力来解决更多相关任务。目前尚不清楚为什么,这导致许多研究人员研究了这一现象。我们很好奇为什么它如此强大以及为什么你能做很多事情。”haotian ye,斯坦福大学的博士生。
当你们仍然是北京大学的本科生时,他和他的同事建模变压器的行为有和没有经过思考链的提示。他们的证明是使用称为电路复杂性理论的另一个计算机科学分支,确定了思想链的促使基本上将大问题变成了一系列较小的问题,从而使变形金刚可以解决更复杂的组成任务。———它可以解决更广泛或更困难的计算类别中的一些问题。”
但是,你们注意到,他们的结果并不意味着现实世界的模型即使在经过思考链的情况下也会解决如此困难的问题。该作品的重点是理论上的模型的能力;训练模型的细节决定了如何实现这一上限。
最终,尽管这些结果令人印象深刻,但它们与Dziri和Peng团队的发现不矛盾。LLM从根本上与他们所看到的模式相匹配,并且其能力受数学边界的限制。嵌入技巧和思想链提示只会扩展其进行更复杂的模式匹配的能力。数学结果表明,您总是可以找到复杂性超出给定系统能力的组成任务。即使是一些较新的州空间模型,这些模型被吹捧为变压器的强大替代品,显示类似的局限性。
一方面,这些结果对大多数使用这些工具的人没有任何改变。dziri说,公众不在乎这是否是推理的。”但是,对于建立这些模型并试图理解其能力的人来说,这很重要。她说:“我们必须真正了解引擎盖下的情况。”•如果我们破解他们如何执行任务以及如何推理,我们可能可以修复它们。但是,如果我们不知道,那真的很难做任何事情。