本文已根据 Science X 的编辑流程和政策进行审阅。编辑在确保内容可信度的同时强调了以下属性:
经过事实检查
预印本
可信来源
校对
研究人员发现,人工智能大型语言模型(如 GPT-4)更擅长预测接下来发生的事情句子中接下来的内容比前面的内容要多。这种“时间之箭”效应可以重塑我们对自然语言结构以及这些模型理解它的方式的理解。
像 GPT-4 这样的大型语言模型 (LLM) 已经成为诸如此类的任务不可或缺的一部分。文本生成、编码、操作聊天机器人、翻译等。从本质上讲,大语言模型的工作原理是根据前面的单词预测句子中的下一个单词,这是一个简单但强大的想法,驱动了它们的大部分功能。
但是,当我们要求这些模型向后预测时会发生什么“这个问题促使洛桑联邦理工学院 (EPFL) 的克莱门特·洪勒 (Clment Hongler) 教授和金史密斯学院 (伦敦) 的杰米·温格 (Jrmie Wenger) 探索大语言模型是否可以从后一个词开始向后构建一个故事结尾。他们与 EPFL 机器学习研究员 Vassilis Papadopoulos 合作,发现了一些令人惊讶的事情:大语言模型在向后预测时始终不如向前预测准确。
研究人员测试了不同的架构和规模,包括生成预训练 Transformer (GPT)、门控循环单元 (GRU) 和长短期记忆 (LSTM) 神经网络。他们每个人都表现出“时间之箭”偏差,揭示了大语言模型处理文本方式的根本不对称性。
洪勒解释说,“这一发现表明,虽然大语言模型在预测下一个单词和预测下一个单词方面都非常擅长,但在预测文本中的前一个单词时,它们总是向后比向前稍微差一些:它们在预测前一个单词时的表现总是比预测下一个单词时差几个百分点。这种现象在所有语言中都很普遍,并且可以在任何语言中观察到。大语言模型。”
这项工作也与信息论之父克劳德·香农 (Claude Shannon) 在 1951 年发表的开创性论文中的工作相关。香农探讨了预测序列中的下一个字母是否和预测前一个字母一样容易。他发现,虽然这两项任务理论上应该同样困难,但人类发现向后预测更具挑战性,尽管性能差异很小。
“理论上,两者之间应该没有区别向前和向后的方向,但大语言模型似乎对他们处理文本的时间方向很敏感,”洪勒说。“有趣的是,这与语言结构的深层属性有关,只有在过去五年中大型语言模型的出现才能发现这一属性。”
研究人员将这一属性与智能代理处理信息,这意味着它可以用作检测智能或生命的工具,并帮助设计更强大的大语言模型。最后,它可以为理解时间的流逝作为物理学中的新兴现象这一长期探索指明新的方向。
这项工作发表在 arXiv 预印本服务器上。
这项研究本身有一个引人入胜的背景故事,洪勒讲述了这一点。“2020 年,我们与 Jrmie Wenger 和 The Manufacture 戏剧学校合作,开发了一个聊天机器人,可以与演员一起进行即兴表演;在即兴表演中,你经常想要继续故事,同时知道结局应该是什么样子
“为了制作以特定方式结束的故事,我们想到了训练聊天机器人‘倒着’说话,让它根据其结局生成一个故事,例如,如果最后是“他们从此过上了幸福的生活”,模型可以告诉你这是如何发生的。因此,我们训练模型来做到这一点,并注意到它们向后比向前要差一些。
“通过 Vassilis [Papadopoulos],我们后来意识到这是语言的一个深刻特征,而且它是这是一种全新的现象,与时间的流逝、智力和因果关系的概念有着深刻的联系,对于某些戏剧项目来说相当酷。”洪勒对这部作品的兴奋很大程度上源于一路上有意想不到的惊喜。“只有时间才能证明,最初作为戏剧项目的东西最终会为我们提供新的工具来了解世界上的许多事情。”
更多信息:Vassilis Papadopoulos 等人,《Arrows of Time for Large》语言模型,arXiv (2024)。DOI:10.48550/arxiv.2401.17505