为了使语言模型更好，研究人员避开语言|Quanta杂志

2025-04-14 14:23:27 英文原文

作者：By Anil Ananthaswamy April 14, 2025

语言是不必要的。虽然它肯定有助于解决某些思想，但一些神经科学家认为，人类的思想和推理的许多形式不需要单词和语法的媒介。有时，论点会出现，必须将思想变成语言实际上会减慢思想过程。

现在有有趣的证据表明，某些人工智能系统也可以从语言上独立于思考中受益。

当大型语言模型（LLMS）处理信息时，它们在数学空间中进行的，远离单词世界。这是因为LLM是使用深层神经网络构建的，这基本上将一个数字序列转化为另一个数字 - 它们有效地复杂的数学功能。研究人员称这些计算发生潜在空间的数值宇宙。

但是，这些模型通常必须留下潜在的空间，以获得更受限制的单个单词之一。这可能是昂贵的，因为它需要额外的计算资源来将神经网络的各种概念的潜在表示转换为单词。通过语言筛分过滤概念的这种依赖也可能导致信息丢失，就像将照片数字化不可避免地意味着失去原始定义中的某些定义一样。许多研究人员很好奇，”迈克·诺普（Mike Knoop），用于测试AI模型中抽象推理的主要基准之一的共同创建者。您可以纯粹在潜在空间中进行推理吗？

最近的两篇论文表明答案可能是肯定的。在其中，研究人员介绍了深层的神经网络，使语言模型在产生任何文本之前可以继续在数学空间中进行思考。尽管仍然相当基础，但这些模型比其标准替代方案更有效和更好。

这是一个令人兴奋的新研究方向。卢克·泽特勒莫耶（Luke Zettlemoyer）华盛顿大学的计算机科学家和自然语言处理专家，他都不参与任何一篇论文。

令牌手势

要了解为什么LLM可能会受到语言的限制，我们首先需要看一下它们。大多数现代模型都使用一种称为一种神经网络变压器，它一口气处理文本流，而不是一件一段。事实证明，这很擅长帮助语言模型预测下一个可能给定文本的可能单词，并因此产生了令人惊讶的现实写作。

但是，变形金刚直接与单词一起使用。他们使用的文本称为令牌。这些可以是整个单词，单词片段甚至单个字符。

这些模型通常如何工作。当用户查询LLM时，算法会破坏将文本输入到一个令牌序列中。然后，该模型将每个令牌转换为一个称为一个数字字符串嵌入，用于基础数学机械的饲料。例如，10个令牌的输入会导致10个嵌入。然后，变压器通过其各种组件（称为层）处理这些嵌入。每层将其结果馈入下一层，逐渐将每个嵌入到其他嵌入。最后一层将所有这些信息放在一起，以生成一组最后一组嵌入。此序列中的最后一个嵌入被称为隐藏状态，因为它没有暴露于外界。该隐藏状态包含该模型所需的所有相关信息，以预测遵循令牌初始输入序列的最有可能的令牌或单词。

这只是过程的开始。该预测的令牌被添加到初始输入序列的末尾，新的令牌集可以回到网络中。然后，变压器将其处理如上上述，并最终产生一个令牌，该令牌附加到最新输入并再次发送回。这一直持续到网络产生文本终结令牌为止，这是该过程完成的信号。

至关重要的是，如今的S LLM经过培训，可以在产生最终答案之前生成旨在模仿其思维过程的扩展令牌。例如，考虑到数学问题，LLM可以生成许多令牌，以显示获得答案所采取的步骤。研究人员称代币导致答案是llm的答案思想链生产它不仅可以帮助研究人员了解模型的作用，而且还使其更准确。

事实证明，这种方法非常有效，这是现代LLM的力量所证明的。但这也意味着LLM必须将令牌嵌入到隐藏状态，然后一遍又一遍地回到令牌嵌入。这是来回的，会产生一个logjam，导致效率低下，并可能导致信息丢失。•如果我们想在潜在空间中推理，我们想跳过此步骤。”Shibo Hao，加州大学圣地亚哥分校的研究生。那就是他和他的团队所做的。

不要说话

去年，Hao和他的同事们想看看他们是否可以在潜在空间中建立一个LLM。他们从标准版本的GPT-2开始，这是Openai已公开的早期LLM。它是一个相对较小的模型，只有1.24亿个参数，即训练期间设置的内部变量，以确定模型的工作原理。

Shibo Hao in a black and white shirt outside a large building — Shibo Hao帮助建立了一个名为Coconut的LLM，该LLM避免了必须不断将数学信息转化为单词。

yi gu

Hao的团队重点关注由最终变压器层生成的隐藏状态转换为令牌的关键点。转换导致信息从连续数字的无限可能性中降至有限的词汇，在这种情况下是GPT-2 50,000左右的令牌。团队更改了模型以避免此步骤，将隐藏状态直接循环回输入嵌入，后者再次通过了变压器的层。

现在，LLM可以在连续的数学空间中处理所有信息，而不是通过人类语言强迫它的离散空间。研究人员称他们的模型椰子，对于连续思想的链条，并于12月发布。

Hao的团队测试了他们的模型，该模型与表现最好的GPT-2版本，该版本在回答之前经过了训练以产生一系列思想的训练。正如他们所希望的那样，椰子几乎总是在领先。在一项逻辑推理测试中，这两个模型均准确98.8％，但椰子仅使用了大约十分之一的代币来实现相同的结果，从而使其更加有效。在需要从一系列选项中选择的另一项测试中，椰子使用了大约三分之一的代币，并且也明显准确，而97％则使用了97.5％。

在连续或潜在的推理中，您不需要将自己的思想转变为语言。您可以在思想中维持这些不确定性，然后最终非常自信地回答。这是一种根本不同的推理模式。

但是，在需要解决基本数学问题的任务中，椰子动摇了。它产生了大约三分之一的代币，但准确性仅为34％，而竞争对手的精度为43％。即使那样，HAO怀疑椰子会从一开始就使用潜在空间推理进行训练，而不是基于标准的，预验证的模型，还会做得更好。

豪还认为其他可能会阻止它。尽管椰子的原因在潜在空间中，但它面临着另一个更微妙的限制。Hao的团队对信息可能循环的次数限制了其变压器层，同时在过程必须结束并产生令牌之前留在潜在空间中。hao说，理想情况下，语言模型应该决定推理结束何时结束。”

变得循环

一个团队由汤姆·戈德斯坦马里兰州大学也一直在努力实现相同的目标。去年，他们设计和训练了变压器这不仅学会了在潜在空间中推理推理，而且还弄清楚何时停止并自行切换回语言。但是这支球队从与霍的方向不同的方向来实现了这项任务。

所有现代LLM都有固定数量的变压器层。戈德斯坦说，这似乎是从根本上限制的，因为这意味着需要额外计算的问题 - 不及时通过。对于早期的LLM尤其如此，该LLM相对较少。戈德斯坦想找出一种按需增加LLM中层数的方法。

由汤姆·戈德斯坦（Tom Goldstein）和他的团队建造的另一家LLM在潜在空间中建造的原因是，在转向文字之前，反复使用相同的层面中使用相同的层。

马里兰大学

他的团队发现他们可以通过实际上使模型不止一次使用其一些层来做到这一点。为了测试他们的想法，他们建立了一个具有八层的LLM。计算像往常一样通过前两层（前奏）进行。接下来的四层有效地将其捆绑在一起，作为一个块，计算可以尽可能多地重复使用。完成后，该复发块的输出将传递到最后两层（coda），这些层预测了下一个令牌。仅一个通过复发块，该模型充当八层LLM。对于25次，它是104层。

这意味着模型的原因几乎完全是潜在空间中的，因为复发块的输出永远不会转换为令牌。取而代之的是，它生成的嵌入物直接馈入复发块并再次处理。

与椰子不同，Goldstein的经常性模型是从头开始训练的，本身就可以学习使用复发块来通过各种问题进行推理的次数。（当经常性块产生的嵌入发生巨大变化时，它停止了循环。）戈德斯坦团队可以使用重要的计算能力，这要归功于美国能源部的赠款，因此他们可以建立一个模型，该模型比椰子大得多。

该系统允许出人意料的复杂行为。该模型学会了在更简单的任务上较早退出，而只花了更多的时间（和资源）在困难的任务上。例如，在涉及道德场景的推理任务上，该模型通过复发块的经历比涉及高中数学的任务要多3.5次。合着者说，这很令人兴奋乔纳斯·格林（Jonas Geiping）德国Tâbingen的Max Planck智能系统学院我们没有为此而训练。这只是一种行为。当这是一个容易的[任务]时，该模型似乎知道。

戈德斯坦（Goldstein）的团队还根据涉及编码任务和数学推理的标准基准测试了他们的模型。他们的模型的表现明显优于最大的第一代奥尔莫模型艾伦AI研究所，即使Olmo模型的参数具有两倍。关于基本数学问题的推理任务，OLMO-7B的精度约为4％，而经常性模型的精度约为28％，尽管Olmo的训练更为复杂，训练更长。戈德斯坦说：``我们的模型仍然击败了它。

回到基础

尽管有这些积极的结果，霍认为，潜在推理模型成为主流可能需要更多的时间和研究。诸如OpenAI和Anthropic之类的领先公司已经在现有的LLM架构上进行了大量投资。重做它们以纳入潜在的空间推理将需要重新设计，因此他们不太可能很快采用这种技术。

Zettlemoyer还警告说，潜在空间推理可能存在其自己的缺点。最终，LLMS训练的数据基于文本，传统方法在查找其中的模式方面非常成功。LLM可以学习任何形式的推理模式，只要它存在于文本中，以确保模型以人类的方式推理。让LLM的理性不使用单词可能意味着它们会以人类思维能够适应的方式工作。ZettleMoyer说，进入连续的空间可以允许各种可能会有所帮助的可能性。” Zettlemoyer说。

但是即便如此，我们现在知道模型至少可以这样工作。Zettlemoyer说，潜在空间中的推理为LLMS带来了一种全新的思维方式。谁知道这种方法可能会发现哪些新模式？

Zettlemoyer说，这种工作的一部分是真正改变您所做的推理类型。”它有机会成为一名大型比赛的人。

关于《为了使语言模型更好，研究人员避开语言|Quanta杂志》的评论

暂无评论

发表评论

摘要

大型语言模型（LLMS）的最新进步使他们能够在潜在空间中进行推理代表了这些模型如何处理和生成信息的重大进展。通过允许LLM在不连续将其计算转换为文本的情况下运行，汤姆·戈德斯坦（Tom Goldstein）和他的马里兰州团队等研究人员为模型效率和解决问题的能力开辟了新的可能性。###关键概念1。**潜在空间推理**： - 传统的LLM在每一层计算后将中间结果转换为文本表示。 - 潜在空间推理涉及允许计算在没有这种转换的情况下进行连续的，数值域进行，从而在更少或动态的层面层中实现了更深的推理。2。**循环体系结构**： - 戈德斯坦（Goldstein）的团队设计了一个具有复发块的体系结构，可以根据任务的复杂性多次使用。 - 该块过程不断嵌入，直到它们稳定或显示最小的变化，表明推理完成而没有过早转换回文本。3。**动态层用法**： - 该模型决定，根据手头任务的难度级别，循环循环需要多少次。 - 对于更简单的任务，需要更少的迭代；对于更复杂的迭代，额外的迭代允许在潜在空间中进行更深入的探索。###优势1。**效率和资源管理**： - 该模型根据输入的复杂性动态调整其计算深度，从而优化了资源使用情况。 - 这种方法可减少不必要的计算，以实现更简单的任务，同时为更复杂的问题提供足够的处理时间。2。**提高性能**： - 初始测试表明，在某些推理和编码任务中，这种模型可以胜过具有较少参数的传统LLM。 - 戈德斯坦（Goldstein）的经常性模型在数学推理任务上的准确性约为28％，尽管参数少得多，但尽管参数少得多。3。**紧急行为**： - 该模型自然学会了为道德上复杂的场景分配更多的计算资源，表明对体系结构的适应性和智能使用。###挑战1。**采用障碍**： - 当前的大规模LLM大量投资于现有的架构和培训方法。 - 将潜在的空间推理整合到这些模型中需要大量的工程工作，这可能会延迟广泛采用。2。**与人类推理模式的对齐**： - 由于数据培训LLM的文本主要是文本性的，因此远离这种格式可能会导致与人类认知过程不符的推理模式。 - 存在发现新的但潜在的无助或误导推理策略的风险。###未来方向1。**进一步的研究和测试**： - 继续研究潜在空间推理的益处和局限性对于理解其全部潜力至关重要。 - 跨各个领域的其他基准测试可以帮助确定这些模型在何处需要改进的区域。2。**与现有架构的集成**： - 调查将传统基于文本的LLM与潜在空间推理结合的混合方法可以提供更平衡的解决方案。 - 这可能涉及使用潜在空间来处理特定的处理阶段，同时保持基于文本的输出生成的鲁棒性。3。**道德和实际考虑**： - 确保在潜在空间中训练的模型与道德准则和人类价值观很好地保持一致，因为它们可以自动解决复杂问题。 - 在早期解决潜在的未对准可以防止问题的问题。＃＃＃结论LLM在潜在空间中推理的能力与当前实践有很大的不同，这可能会释放新的效率和解决问题的能力。尽管将这些进步集成到现有框架中存在挑战，但最初的结果表明，这个方向对AI研究和应用程序中的未来发展有望。