苹果公司的AI研究团队在一项新近发表的研究中发现了大型语言模型推理能力上的显著弱点。
该研究,发布在arXiv上概述了苹果公司对一系列领先语言模型的评估,包括来自OpenAI、Meta和其他知名开发者的模型,以确定这些模型在处理数学推理任务时的表现。研究发现表明,即使是问题表述中的微小变化也可能导致模型表现出现重大差异,从而影响其在需要逻辑一致性的情景下的可靠性。
苹果公司指出语言模型中存在的一个持久问题:它们依赖于模式匹配而不是真正的逻辑推理。在几次测试中,研究人员证明,在一个问题中添加无关信息——这些细节不应该影响数学结果——会导致模型给出截然不同的答案。
论文中给出的一个例子涉及一个简单的数学问题,询问一个人在几天内收集了多少颗猕猴桃。当引入了一些猕猴桃大小的无关细节时,像OpenAI的o1和Meta的Llama这样的模型错误地调整了最终总数,尽管这些额外的信息与解决方案无关。
我们没有发现语言模型中存在形式推理的证据。它们的行为更可能是由复杂的模式匹配解释的——实际上如此脆弱,以至于更改名称可以将结果改变大约10%。
这种推理的脆弱性促使研究人员得出结论,即这些模型并不使用真正的逻辑来解决问题,而是依赖于在训练过程中学习到的复杂模式识别。他们发现,“仅仅改变名称就可以改变结果”,这对未来需要在现实世界环境中进行一致和准确推理的人工智能应用来说可能是一个令人担忧的迹象。
根据该研究,所有经过测试的模型(从较小的开源版本如Llama到像OpenAI的GPT-4这样的专有模型),在面对看似无关紧要的输入数据变化时都表现出显著的性能下降。苹果公司建议AI可能需要将神经网络与传统的基于符号的推理相结合。神经符号AI为了获得更准确的决策和问题解决能力。