研究人员表示，尽管生成人工智能的产出令人印象深刻，但它对世界并没有连贯的理解

2024-11-05 11:57:05 英文原文

作者：Massachusetts Institute of Technology

Despite its impressive output, generative AI doesn't have a coherent understanding of the world — 左侧是 Myhill-Nerode 边界和内部的视觉描绘。右侧是累积 Connect-4 的两种状态的示例。两个州都有相同的有效下一步行动。Myhill-Nerode 边界中最短的序列的长度为 4，边界包含长度最长为 30 的序列。内部包含大约 8.8 × 10²⁷长度为 29 的序列不区分两块板。信用：*arXiv*（2024）。DOI：10.48550/arxiv.2406.03689

大型语言模型可以做一些令人印象深刻的事情，比如写诗或生成可行的计算机程序，尽管这些模型经过训练可以预测一段文本中接下来出现的单词。

这种令人惊讶的能力会让模型看起来像是在隐式地学习关于世界的一些普遍真理。

但根据一项新的研究，情况并非一定如此。研究人员发现，一种流行的生成式人工智能模型可以以近乎完美的精度提供纽约市的逐段驾驶路线，而无需形成准确的城市内部地图。

尽管该模型具有不可思议的有效导航能力，但当研究人员关闭一些街道并增加绕道时，其性能直线下降。

当他们深入挖掘时，研究人员发现模型隐式生成的纽约地图有许多不存在的街道在网格之间弯曲并连接遥远的十字路口。

这可能会对现实世界中部署的生成式人工智能模型产生严重影响，因为如果任务或环境发生轻微变化，在某种情况下表现良好的模型可能会崩溃。

“一个希望是，因为法学硕士可以用语言完成所有这些令人惊奇的事情，也许我们也可以在科学的其他领域使用这些相同的工具。但是，如果我们想要，法学硕士是否正在学习连贯的世界模型这一问题非常重要麻省理工学院信息与决策系统实验室（LIDS）的经济学助理教授、首席研究员、资深作者阿什什·兰巴坎（Ashesh Rambachan）说道。

Rambachan 加入了关于工作的论文作者：哈佛大学博士后 Keyon Vafa；Justin Y. Chen，麻省理工学院电气工程与计算机科学 (EECS) 研究生；Jon Kleinberg，康奈尔大学计算机科学和信息科学蒂施大学教授；Sendhil Mullainathan 是麻省理工学院 EECS 和经济学系的教授，也是 LIDS 的成员。该研究将在神经信息处理系统会议上发表。

该作品发表于arXiv预印本服务器。

新指标

研究人员专注于一种称为 Transformer 的生成式 AI 模型，它构成了 GPT-4 等法学硕士的支柱。Transformer 经过大量基于语言的数据的训练，以预测序列中的下一个标记，例如句子中的下一个单词。

但研究人员表示，如果科学家想要确定法学硕士是否已经形成了准确的世界模型，仅仅测量其预测的准确性还不够。

例如，他们发现 Transformer 几乎每次都能预测 Connect 4 游戏中的有效动作，而无需了解任何规则。

因此，该团队开发了两个新指标来测试变压器的世界模型。研究人员将他们的评估重点放在一类称为确定性有限自动化（DFA）的问题上。

DFA 是一个涉及一系列状态的问题，就像人们必须穿过才能到达目的地的交叉路口，以及描述人们沿途必须遵循的规则的具体方式。

他们选择了两个问题来表述为 DFA：在纽约市的街道上导航和玩棋盘游戏 Othello。

“我们需要测试台来了解世界模型是什么。现在，我们可以严格思考恢复世界模型意味着什么，”瓦法解释道。

他们开发的第一个指标称为序列区分，表示如果模型看到两个不同的状态（例如两个不同的黑白棋盘）并识别出它们的不同之处，则该模型已形成一个连贯的世界模型。序列（即数据点的有序列表）是转换器用来生成输出的内容。

第二个指标称为序列压缩，它表示具有连贯世界模型的变压器应该知道两个相同的状态（例如两个相同的奥赛罗棋盘）具有相同的可能的后续步骤序列。

他们使用这些指标来测试两类常见的转换器，一类根据随机生成的序列生成的数据进行训练，另一类根据以下策略生成的数据进行训练。

不连贯的世界模型

令人惊讶的是，研究人员发现，随机做出选择的变形金刚会形成更准确的世界模型，这可能是因为他们在训练过程中看到了更广泛的潜在下一步。

“在黑白棋中，如果你看到两台随机计算机而不是冠军选手进行比赛，理论上你会看到全套可能的棋步，甚至是冠军选手不会做出的糟糕棋步，”瓦法解释道。

尽管变压器几乎在每个实例中都生成了准确的方向和有效的奥赛罗棋步，但这两个指标表明，只有一个为奥赛罗棋步生成了连贯的世界模型，并且在寻路示例中没有一个在形成连贯的世界模型方面表现良好。

研究人员通过在纽约市地图上添加绕路来证明这一点的影响，这导致所有导航模型失败。

“令我惊讶的是，一旦我们添加了一条绕道，性能就下降得如此之快。如果我们只关闭 1% 的可能街道，准确率就会立即从近 100% 骤降到只有 67%，”Vafa 说。

当他们恢复模型生成的城市地图时，它们看起来就像想象中的纽约市，数百条街道纵横交错，覆盖在网格顶部。这些地图通常包含其他街道上方的随机立交桥或多条方向不可能的街道。

这些结果表明，在不了解规则的情况下，变压器可以在某些任务上表现得惊人地好。研究人员表示，如果科学家想要建立能够捕捉准确世界模型的法学硕士，他们需要采取不同的方法。

“通常，我们看到这些模型做了令人印象深刻的事情，并认为他们一定了解这个世界的一些东西。我希望我们能够让人们相信这是一个需要仔细思考的问题，我们不必依赖自己的直觉来回答这个问题，”Rambachan 说。

未来，研究人员希望解决更多样化的问题，例如那些仅部分了解某些规则的问题。他们还希望将他们的评估指标应用于现实世界的科学问题。

更多信息：Keyon Vafa 等人，评估生成模型中隐含的世界模型，arXiv（2024）。DOI：10.48550/arxiv.2406.03689

期刊信息： arXiv

这个故事由麻省理工学院新闻转载（web.mit.edu/新闻办公室/），一个热门网站，涵盖有关麻省理工学院研究、创新和教学的新闻。

引文:研究人员表示，尽管生成式人工智能的产出令人印象深刻，但它对世界并没有连贯的理解（2024 年，11 月 5 日）检索日期：2024 年 11 月 5 日来自 https://techxplore.com/news/2024-11-output-generative-ai-doesnt-coherent.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。

关于《研究人员表示，尽管生成人工智能的产出令人印象深刻，但它对世界并没有连贯的理解》的评论

暂无评论

发表评论

摘要

一项新的研究表明，尽管大型生成式人工智能模型在路线导航和游戏等任务中表现出色，但它们缺乏对世界的连贯理解。研究人员发现，当环境或任务发生轻微变化时，这些模型可能会失败，这表明它们无法形成准确的内部地图或理解潜在规则。他们开发了指标来测试 Transformer 是否形成了连贯的世界模型，但发现即使是高性能模型也经常无法通过这些测试，这引发了人们对人工智能在现实世界应用中可靠性的担忧。

研究人员表示，尽管生成人工智能的产出令人印象深刻，但它对世界并没有连贯的理解

新指标

不连贯的世界模型

关于《研究人员表示，尽管生成人工智能的产出令人印象深刻，但它对世界并没有连贯的理解》的评论

发表评论

摘要

相关新闻

相关讨论