作者:Devin Coldewey
机器学习模型是如何工作的?它们真的像我们理解的那样在“思考”或“推理”吗?这是一个哲学问题,也是一个实际问题,但本周五发布的一篇新论文表明,至少目前而言,答案是一个相当明确的“不”。
一组苹果公司的AI研究科学家发布了他们的论文《理解大型语言模型在数学推理方面的局限性》到本周四的一般评论为止。虽然符号学习和模式复制的深层概念有些复杂难懂,但他们研究的基本概念非常容易理解。
假设我让你解决这样一个简单的数学问题:
奥利弗星期五摘了44个奇异果。然后他在星期六摘了58个奇异果。星期日,他摘的奇异果数量是星期五的两倍。奥利弗一共有多少个奇异果?
显然,答案是44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术方面实际上存在不足他们可以相当可靠地解决这样的问题。但是假如我加入一些随机的额外信息,比如这个:
奥利弗在星期五摘了44个奇异果。然后他在星期六摘了58个奇异果。在星期天,他摘的奇异果数量是星期五的两倍。但其中有五个稍微小于平均水平奥利弗有多少 kiwi 果?
这是一样的数学问题,对吧?当然,即使是小学生也知道一个小猕猴桃仍然是猕猴桃。但事实证明,这个额外的数据点甚至会混淆最先进的大型语言模型。这是GPT-o1-mini的看法:
……周日,有5个猕猴桃小于平均大小。我们需要从周日的总数中减去它们:88(周日的猕猴桃)- 5(较小的猕猴桃)= 83个猕猴桃
这只是一个经过轻微修改的数百个问题中的一个简单例子,但几乎所有这些问题都导致了模型成功率的巨大下降。
现在,为什么会这样呢?为什么一个理解问题的模型会因为一些随机且不相关的细节而轻易出错?研究人员提出,这种可靠的失败模式意味着这些模型根本就没有真正理解问题。它们的训练数据确实允许它们在某些情况下给出正确的答案,但是一旦需要进行一点实际的“推理”,比如是否要计算小猕猴桃的数量,它们就开始产生奇怪、不合逻辑的结果。
正如研究人员在他们的论文中所说的:
我们调查了这些模型在数学推理方面的脆弱性,并证明随着问题中子句数量的增加,它们的表现显著下降。我们认为这种下滑是由于当前的大规模语言模型不具备真正的逻辑推理能力;相反,它们试图复制在其训练数据中观察到的推理步骤。
这一观察结果与人们通常归因于大语言模型的语言处理能力是一致的。从统计上来说,当短语“我爱你”后面跟着“我也爱你”的时候,大语言模型可以轻易地重复这一点——但这并不意味着它真的爱你。尽管它可以遵循之前暴露过的复杂推理链条,但这一链条可以通过一些表面的变化被打破的事实表明,实际上它并不是进行真正的推理,而是在复制其训练数据中观察到的模式。
Mehrdad Farajtabar,其中之一的合著者,在这条X平台上的话题中非常清晰地解析了论文.
一位OpenAI的研究人员在赞扬Mirzadeh等人工作的同时,反对他们的结论,表示通过一些提示工程很可能在所有这些失败案例中都能得到正确的结果。Farajtabar(以研究人员通常友好的态度回应)指出,虽然更好的提示可能对简单的偏差有效,但对于复杂的干扰,模型可能需要指数级更多的上下文数据——而这些干扰,再者,一个孩子可以轻而易举地指出来。
这是否意味着大型语言模型不会推理?也许如此。它们不能进行推理吗?没有人知道。这些概念没有明确的定义,并且这些问题往往出现在人工智能研究的前沿领域,在那里每天的技术状态都在变化。或许大型语言模型“在进行推理”,但以一种我们尚未认识到或了解如何控制的方式。
这为研究领域带来了一个令人着迷的前沿,但在人工智能销售方式方面也发人深省。它真的能够做到他们所宣称的事情吗?如果可以的话,又是如何实现的呢?随着人工智能成为一种日常软件工具,这类问题已经不再是理论上的讨论了。