据称大型语言模型(LLM)可能并没有看起来那么聪明学习从苹果公司研究人员。
来自OpenAI、Google、Meta等公司的大型语言模型因其出色的推理能力而备受推崇。但研究表明,它们所谓的智能可能更接近于“复杂的模式匹配”,而非“真正的逻辑推理”。没错,即使是OpenAI的也是如此。o1 高级推理模型.
最常用的推理技能基准测试是称为GSM8K的测试,但由于它非常流行,存在数据污染的风险。这意味着大规模语言模型可能是因为接受了这些答案的训练而知道测试的答案,而不是因为它们本身具有这种智能。
为了测试这一点,该研究开发了一个新的基准测试叫做GSM-Symbolic,它保留了推理问题的本质,但改变了变量,比如名字、数字、复杂度,并加入了无关信息。他们发现的是令人惊讶的“脆弱性”在大型语言模型的表现中。这项研究测试了超过20个模型,包括OpenAI的o1和GPT-4o、Google的Gemma 2以及Meta的Llama 3。每一个模型在其变量改变时表现都下降了。
准确性在更改名称和变量时下降了几个百分点。正如研究人员指出的,OpenAI的模型表现优于其他开源模型。然而,这种变化幅度被认为“不可忽略”,意味着任何实际的变化都不应发生。但是,当研究人员加入了一些“看似相关但实际上无足轻重的陈述”时,事情变得非常有趣。
Mashable极速版
为了检验大语言模型更依赖于模式匹配而非实际推理的假设,该研究在数学问题中添加了多余的短语,以观察这些模型会如何反应。例如,“奥利弗在星期五摘了44个奇异果。然后他在星期六摘了58个奇异果。星期天,他摘的奇异果数量是星期五的两倍。但其中五个稍微小于平均水平。奥利弗有多少颗奇异果?
结果是整体性能出现了显著下降。OpenAI的o1 Preview表现最好,准确率下降了17.5%。这仍然相当糟糕,但没有微软的Phi 3模型那么差,后者的性能下降了65%。
在猕猴桃的例子中,研究指出大型语言模型倾向于从等式中去掉五个较小的猕猴桃,而不理解猕猴桃的大小与问题无关。这表明“模型倾向于将陈述转换为操作而没有真正理解其含义”,从而验证了研究人员的假设,即大型语言模型寻找推理问题中的模式,而不是天生理解概念。
该研究对其发现直言不讳。在包含无关信息的基准测试中,模型的表现“揭示了大型语言模型真正理解数学概念以及区分解决问题所需相关信息的能力上的一个关键缺陷。”然而值得注意的是,这项研究的作者就职于苹果公司,而苹果显然是谷歌、Meta甚至OpenAI的主要竞争对手——尽管苹果和OpenAI有合作关系,但苹果也在开发自己的人工智能模型。
说到底,大语言模型在形式推理能力上的不足是不能忽视的。最终,这提醒我们要用健康的怀疑态度来平衡对人工智能的炒作。