作者:{{ author }} | {{ dateFormatted }}
苹果的人工智能科学家发表的一篇新论文发现,基于大型语言模型的引擎(如Meta和OpenAI的模型)仍然缺乏基本的推理能力。
该小组已提出一个新的基准测试,GSM-Symbolic,以帮助他人衡量各种大型语言模型(LLM)的推理能力。他们的初步测试表明,查询措辞的细微变化会导致答案有显著的不同,从而削弱了模型的可靠性。
该团队通过在查询中加入人类可以理解但不应影响解决方案基本数学原理的上下文信息,调查了数学推理的“脆弱性”。这导致了不同的答案,而这不应该发生。
具体来说,当在GSM-Symbolic基准测试中仅更改问题中的数值时,所有模型的性能都会下降,该小组在其报告中写道。“此外,这些模型在数学推理方面的脆弱性表明,随着一个问题中子句数量的增加,其性能会显著恶化。”
该研究发现,即使在给定的数学题目中添加一句看似提供相关信息的句子,也可能使最终答案的准确性降低多达65%。“在这种基础上,你根本不可能建立可靠的代理程序,因为改变一两个不相关的单词或添加一些无关的信息就能得到不同的答案。”研究报告得出结论。
一个特别的例子说明了这个问题,即一个需要真正理解问题含义的数学题。团队开发的任务称为"GSM-NoOp",类似于小学生可能会遇到的那种数学“应用题”。
查询从制定结果所需的信息开始。"奥利弗在星期五摘了44个猕猴桃。然后他在星期六摘了58个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。"
然后查询添加了一个看似相关但实际上与最终答案无关的子句,指出在周日采摘的奇异果中,“有五个比平均水平稍小。”所要求的答案只是问“奥利弗有多少个奇异果?”
关于周日采摘的一些奇异果大小的备注不应影响总共采摘的奇异果数量。然而,OpenAI的模型以及Meta的Llama3-8b从总数中减去了五颗较小的奇异果。
错误的逻辑得到了2019年的一项研究的支持,该研究表明可以通过询问两名以前超级碗四分卫的年龄来可靠地混淆AI模型。通过添加他们参加的比赛的相关背景信息以及另一场碗赛中的第三名四分位选手的信息,这些模型会产生不正确的答案。
“我们没有发现语言模型中存在形式推理的证据,”该新研究得出结论。LLM(大型语言模型)的行为“更可能是由复杂模式匹配解释的”,而这项研究表明这种模式匹配“实际上非常脆弱,以至于仅仅改变名称就能改变结果。”