作者:Kyle Orland, Ars Technica
最近一段时间,像OpenAI和谷歌这样的公司一直在宣扬先进的“推理”能力作为下一个重大步骤在他们最新的人工智能模型中。现在,六名苹果工程师的一项新研究表明,先进的大型语言模型所展示的数学“推理”在面对常见基准问题的微小变化时可能会极其脆弱和不可靠。
这些新结果所突出的脆弱性有助于支持之前的研究,即认为大型语言模型使用概率模式匹配的方法缺少了真正可靠数学推理能力所需的对基础概念的形式理解。“基于这些结果,研究人员假设当前的大规模语言模型不具备真正的逻辑推理能力。”“相反,它们试图复制在训练数据中观察到的推理步骤。”
在《GSM-Symbolic:理解大型语言模型中数学推理的局限性》一文中——目前可获取作为预印本论文—六位苹果公司的研究人员从开始于GSM8K的标准数学应用题集合,包含超过8,000道小学水平的数学问题,即常用于作为基准对于现代大规模语言模型的复杂推理能力。然后他们采取了一种新颖的方法,修改部分测试集,动态地将某些名称和数字替换为新值——例如,在GSM8K中关于索菲给她侄子31块积木的问题,在新的GSM-Symbolic评估中可能会变成关于比尔给他哥哥19块积木的问题。
这种方法有助于避免静态GSM8K问题直接输入到AI模型训练数据中可能产生的“数据污染”。同时,这些偶然的变化并不会改变内在数学推理的实际难度,这意味着模型在测试时应该能够在GSM-Symbolic和GSM8K上表现出相同的效果。
相反,当研究人员在GSM-Symbolic上测试了超过20个最先进的LLM时,他们发现与GSM8K相比,所有模型的平均准确率都有所下降,性能下降幅度从0.3%到9.2%不等,具体取决于模型。结果还显示,在50次不同名称和数值的不同运行中,GSM-Symbolic的表现差异很大。在同一模型内部,最佳与最差运行之间的准确率差距最高可达15%,而且不知何故,更改数字往往比更改名称会导致更糟糕的准确性。
这种差异——既出现在不同的GSM-Symbolic运行中,也与GSM8K的结果相比——令人相当惊讶,正如研究人员指出的那样,“解决一个问题所需的总体推理步骤保持不变。”这样的小变化导致如此多样的结果表明,这些模型并没有进行任何形式化的推理,而是“试图执行一种分布内的模式匹配,将给定的问题和解题步骤与训练数据中看到的类似情况进行对齐。”
然而,GSM-Symbolic测试中总体的差异通常在整体范围内相对较小。例如,OpenAI的ChatGPT-4o从GSM8K上的95.2%准确率下降到GSM-Symbolic上的仍令人印象深刻的94.9%。无论模型背后是否使用“正式”推理(尽管当研究人员仅添加一两个额外的逻辑步骤时,许多模型的整体准确性急剧下降),这在任一基准测试中都是一个相当高的成功率。
然而,当苹果公司的研究人员通过在问题中加入“看似相关但实际上无关的陈述”来修改GSM-Symbolic基准时,被测试的大规模语言模型表现得差得多。对于这个称为"GSM-NoOp"(意为“无操作”)的基准数据集,一个关于某人在几天内摘了多少猕猴桃的问题可能会被修改为包含这样一个不相关的细节:“其中五只猕猴桃比平均大小稍小一些。”
添加这些误导信息导致了研究人员所说的与GSM8K相比“灾难性的性能下降”,准确率从17.5%到惊人的65.7%不等,具体取决于测试的模型。这种巨大的准确性下降突显了使用简单的“模式匹配”来“将陈述转换为操作而不真正理解其含义”的内在限制,研究人员写道。