大型语言模型可以做一些令人印象深刻的事情,比如写诗或生成可行的计算机程序,尽管这些模型经过训练可以预测一段文本中接下来出现的单词。
这种令人惊讶的能力会让模型看起来像是在隐式地学习关于世界的一些普遍真理。
但根据一项新的研究,情况并非一定如此。研究人员发现,一种流行的类型 生成式人工智能模型可以以近乎完美的精度提供纽约市的逐段行车路线,而无需形成准确的城市内部地图。
尽管该模型具有不可思议的有效导航能力,但当研究人员关闭了一些街道并增加了绕道时,其性能直线下降。
当他们深入挖掘时,研究人员发现模型隐式生成的纽约地图有许多不存在的街道在网格之间弯曲并连接遥远的十字路口。
这可能会对现实世界中部署的生成式人工智能模型产生严重影响,因为如果任务或环境发生轻微变化,在某种情况下表现良好的模型可能会崩溃。
– 一个希望是,因为法学硕士可以用语言完成所有这些令人惊奇的事情,也许我们也可以在科学的其他领域使用这些相同的工具。但是,如果我们想利用这些技术做出新的发现,那么法学硕士是否正在学习连贯的世界模型这一问题就非常重要。”资深作者、经济学助理教授、麻省理工学院信息和实验室首席研究员 Ashesh Rambachan 说道。决策系统(LIDS)。
Rambachan 加入了关于工作的论文作者:哈佛大学博士后 Keyon Vafa;Justin Y. Chen,麻省理工学院电气工程与计算机科学 (EECS) 研究生;Jon Kleinberg,康奈尔大学计算机科学和信息科学蒂施大学教授;Sendhil Mullainathan 是麻省理工学院 EECS 和经济学系的教授,也是 LIDS 的成员。该研究将在神经信息处理系统会议上发表。
新指标
研究人员专注于一种称为 Transformer 的生成式 AI 模型,它构成了 GPT-4 等法学硕士的支柱。Transformer 经过大量基于语言的数据的训练,以预测序列中的下一个标记,例如句子中的下一个单词。
但研究人员表示,如果科学家想要确定法学硕士是否已经形成了准确的世界模型,仅仅衡量其预测的准确性还不够。
例如,他们发现 Transformer 几乎每次都能预测 Connect 4 游戏中的有效动作,而无需了解任何规则。
因此,该团队开发了两个新指标来测试 Transformer 的世界模型。研究人员将他们的评估重点放在一类称为确定性有限自动化(DFA)的问题上。
DFA 是一个涉及一系列状态的问题,就像人们必须穿过才能到达目的地的交叉路口,以及描述人们沿途必须遵循的规则的具体方式。
他们选择了两个问题来表述为 DFA:在纽约市的街道上导航和玩棋盘游戏 Othello。
– 我们需要试验台来了解世界模型是什么。现在,我们可以认真思考恢复这个世界模式意味着什么,”瓦法解释道。
他们开发的第一个指标称为序列区分,表示如果模型看到两个不同的状态(例如两个不同的黑白棋盘)并识别出它们的不同之处,则模型已经形成了一个连贯的世界模型。序列(即数据点的有序列表)是转换器用来生成输出的内容。
第二个指标称为序列压缩,它表示具有连贯世界模型的变压器应该知道两个相同的状态(例如两个相同的奥赛罗棋盘)具有相同的可能的后续步骤序列。
他们使用这些指标来测试两类常见的转换器,一类根据随机生成的序列生成的数据进行训练,另一类根据以下策略生成的数据进行训练。
不连贯的世界模型
令人惊讶的是,研究人员发现,随机做出选择的变形金刚会形成更准确的世界模型,这可能是因为他们在训练过程中看到了更广泛的潜在下一步。
“在《黑白棋》中,如果您看到两台随机计算机而不是冠军选手进行比赛,理论上您会看到全套可能的走法,甚至是冠军选手不会做出的糟糕走法,”Vafa 解释道。
尽管变压器几乎在每个实例中都生成了准确的方向和有效的奥赛罗棋步,但这两个指标表明,只有一个为奥赛罗棋步生成了连贯的世界模型,并且在寻路示例中没有一个在形成连贯的世界模型方面表现良好。
研究人员通过在纽约市地图上添加绕路来证明这一点的影响,这导致所有导航模型失败。
– 当我们添加绕行路线后,性能下降得如此之快,这让我感到惊讶。如果我们只关闭 1% 的可能街道,准确率就会立即从近 100% 骤降到只有 67%,”Vafa 说。
当他们恢复模型生成的城市地图时,它们看起来就像想象中的纽约市,数百条街道纵横交错,覆盖在网格顶部。这些地图通常包含其他街道上方的随机立交桥或多条方向不可能的街道。
这些结果表明,在不了解规则的情况下,变压器可以在某些任务上表现得惊人地好。研究人员表示,如果科学家想要建立能够捕捉准确世界模型的法学硕士,他们需要采取不同的方法。
– 通常,我们看到这些模型做出了令人印象深刻的事情,并认为他们一定了解世界的某些东西。我希望我们能够让人们相信这是一个需要仔细思考的问题,我们不必依靠自己的直觉来回答它,”Rambachan 说。
未来,研究人员希望解决更多样化的问题,例如那些仅部分了解某些规则的问题。他们还希望将他们的评估指标应用于现实世界的科学问题。
这项工作的部分资金来自哈佛数据科学计划、国家科学基金会研究生研究奖学金、万尼瓦尔布什教员奖学金、西蒙斯合作资助和麦克阿瑟基金会的资助。