最新的生成式人工智能模型能够产生惊人的、神奇的类人输出。但他们真的明白什么吗?根据麻省理工学院的最新研究(通过技术点)。
更具体地说,关键问题是法学硕士或大型语言模型是否是最强大的聊天机器人能够构建准确的世界内部模型。麻省理工学院研究人员给出的答案基本上是否定的,他们不能。
为了找到答案,麻省理工学院团队开发了用于测试人工智能的新指标,这些指标超越了简单的响应准确性测量,而是依赖于所谓的确定性有限自动化(DFA)。
DFA 是一个具有一系列相互依赖的步骤的问题,这些步骤依赖于一组规则。除其他任务外,研究还选择在纽约市的街道上行驶。
麻省理工学院的团队发现,一些生成式人工智能模型能够在纽约市提供非常准确的逐段驾驶路线,但仅限于理想情况下。当研究人员关闭一些街道并增加绕道时,表现直线下降。事实上,法学硕士通过培训过程隐式生成的内部地图充满了不存在的街道和其他不一致之处。
– 当我们添加绕行路线后,性能下降得如此之快,这让我感到惊讶。如果我们只关闭 1% 的可能街道,准确率就会立即从近 100% 骤降至 67%。”该研究论文的主要作者 Keyon Vafa 说道。
这里的核心教训是,法学硕士在某些情况下的卓越准确性可能会产生误导。“通常,我们看到这些模型做了令人印象深刻的事情,并认为他们一定了解这个世界的一些东西。我希望我们能够让人们相信这是一个需要仔细思考的问题,我们不必依赖我们自己的直觉来回答这个问题,”资深论文作者 Ashesh Rambachan 说。
更广泛地说,这项研究提醒人们最新的法学硕士的实际情况。他们实际上所做的就是根据抓取、索引和关联的大量文本来预测序列中下一个要放置的单词。推理和理解并不是该过程的固有部分。
麻省理工学院的这项新研究表明,法学硕士无需真正理解任何规则也可以做得非常好。与此同时,面对现实世界的变量,这种准确性可能会迅速下降。
当然,对于熟悉使用聊天机器人的人来说,这并不完全是新闻。我们都经历过,与聊天机器人进行的令人信服的互动,在某种疑问性的刺激下,很快就会变成幻觉,或者只是胡言乱语。
但麻省理工学院的这项研究有助于将轶事经验具体化为更正式的解释。我们都知道聊天机器人只是预测单词。但某些反应的准确性令人难以置信,有时会让您相信神奇的事情可能正在发生。
这项最新研究提醒我们,几乎可以肯定事实并非如此。好吧,除非极其准确但最终无意识的单词预测才是你的魔法。