作者:{{ author }} | {{ dateFormatted }}
苹果的人工智能科学家发布的一篇新论文发现,基于大型语言模型的引擎(如Meta和OpenAI的模型)仍然缺乏基本的推理能力。
小组已提出一个新的基准测试,GSM-Symbolic,以帮助其他人衡量各种大型语言模型(LLM)的推理能力。他们的初步测试显示,查询用词的细微变化会导致答案有显著不同,从而削弱了模型的可靠性。
该小组通过在查询中添加人类可以理解但不应影响解决方案基本数学原理的上下文信息,调查了数学推理的“脆弱性”。这导致了不同的答案,而这不应该发生。
具体而言,当只在GSM-Symbolic基准测试中的问题数值发生变化时,所有模型的性能都会下降,研究小组在其报告中写道。“此外,这些模型中数学推理的脆弱性表明,随着问题中子句数量的增加,它们的性能会显著恶化。”
研究发现,即使在给定的数学问题中添加一句看似提供相关信息的句子,也可能使最终答案的准确性降低多达65%。“在这个基础上根本无法构建可靠的代理程序,因为改变无关紧要的一两个单词或添加一些不相关的信息就会得到不同的答案。”研究报告得出结论。
一个具体例子说明了这个问题,即一个需要真正理解问题含义的数学题。团队开发的任务被称为"GSM-NoOp",类似于小学生可能遇到的数学“应用题”。
查询从形成结果所需的信息开始。“奥利弗在星期五摘了44个猕猴桃。然后他在星期六摘了58个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。”
查询然后添加了一个看似相关但实际上与最终答案无关的子句,指出在周日采摘的奇异果中,“其中有5个比平均水平稍小。”所要求的答案只是问“奥利弗有多少个奇异果?”
关于周日采摘的一些奇异果大小的笔记不应影响总共采摘的奇异果数量。然而,OpenAI的模型以及Meta的Llama3-8b从总数中减去了五个较小的奇异果。
该错误逻辑得到了一项2019年的研究的支持,该研究可以通过询问关于两名前超级碗四分卫年龄的问题来可靠地混淆AI模型。通过加入他们参加的比赛的相关背景信息以及另一位在另一场碗赛中担任四分位的第三个人的信息,这些模型会产生不正确的答案。
“我们没有发现语言模型中存在形式推理的证据,”这项新研究得出结论。LLM(大型语言模型)的行为“更可能是由复杂的模式匹配解释的”,该研究表明这种模式匹配“实际上非常脆弱,以至于仅仅改变名字就能改变结果。”