苹果研究人员提出GSM-Symbolic:一种新型的机器学习基准测试,包含多个变体,旨在更深入地洞察大型语言模型的数学推理能力。

2024-10-13 19:43:44 英文原文

作者:Sana Hassan

最近在大型语言模型(LLM)方面的进步激发了人们对它们数学推理能力的兴趣,尤其是在GSM8K基准测试中,该基准用于评估小学水平的数学能力。尽管LLM在GSM8K上的表现有所提高,但人们仍然怀疑它们的推理能力是否真正得到了提升,因为当前的度量标准可能只能部分捕捉到它们的能力。研究表明,LLM依赖于概率模式匹配而不是真正的逻辑推理,导致令牌偏差和对小输入变化的敏感性。此外,GSM8K静态性质及其依赖单一指标评估限制了它在不同条件下评估LLM推理能力的有效性。

逻辑推理对于智能系统至关重要,但大型语言模型(LLM)的逻辑一致性仍有待确定。尽管一些研究表明,LLM可以通过概率模式匹配来处理任务,但在输入令牌发生变化时,它们通常需要更正式的推理,因为这会显著改变结果。虽然在某些情况下有效,但如果支持外部内存(如草稿板),转换器对于复杂任务仍需更具表达能力。研究显示,LLM依赖于训练期间见过的数据匹配,而不是真正的逻辑理解。

苹果公司的研究人员进行了一项大规模研究,使用一个名为GSM-Symbolic的新基准来评估最先进的大型语言模型(LLM)的推理能力。该基准通过符号模板生成多样的数学问题,从而实现更可靠和可控的评估。他们的发现表明,当数值或问题复杂度增加时,LLM的表现显著下降。此外,添加不相关但看似相关的信息会导致性能下降高达65%,这表明LLM依赖于模式匹配而不是正式推理。该研究强调了改进评估方法和进一步研究LLM推理能力的必要性。

GSM8K数据集包含超过8000个小学水平的数学问题和答案,常用于评估大型语言模型(LLM)。然而,由于其流行度,出现了诸如数据污染和因细微问题变化导致性能差异等风险。为解决这些问题,开发了GSM-Symbolic,该工具使用符号模板生成多样化的题目实例。这种方法能够更稳健地评估LLM,提供对问题难度的更好控制,并测试模型在多种变体中的能力。基准测试使用100个模板中抽取的5000个样本,对20多个开源和闭源模型进行了评测,揭示了LLM数学推理能力和局限性的洞察。

初步实验表明,在GSM8K数据集的一个变体GSM-Symbolic上,不同模型的表现存在显著差异,并且准确性低于在GSM8K上的报告结果。该研究进一步探讨了更改名称与改变数值对大语言模型的影响,结果显示数值变化会显著降低性能。问题难度也会影响准确率,复杂度更高的问题会导致性能下降更多。实验结果表明,模型可能依赖于模式匹配而非真正的推理能力,因为额外的条款常常会降低它们的表现。

该研究考察了大型语言模型的推理能力,并强调了当前GSM8K评估中的局限性。引入了一个新的基准测试GSM-Symbolic,用于评估大型语言模型在多变问题情况下的数学推理能力。结果显示,在改变数值或添加无关条款时存在显著的表现差异。当问题复杂度增加时,大型语言模型也需要更多的帮助,这表明它们更依赖于模式匹配而非真正的推理能力。GSM-NoOp进一步揭示了大型语言模型无法过滤掉无关信息的能力不足,导致性能大幅下降。总体而言,这项研究强调了提高大型语言模型逻辑推理能力的必要性。


查看一下纸张此研究的所有荣誉归于该项目的研究人员。也不要忘了关注我们在推特并加入我们电报频道以及领英 Group. 如果你喜欢我们的工作,你会爱上我们的通讯Newsletter不要忘记加入我们50k+ 机器学习 SubReddit

即将举行的活动 - 2022年10月17日 RetrieveX – 生成式AI数据检索大会(推广)

桑娜·哈桑是Marktechpost的咨询实习生,同时也是印度理工学院马德拉斯分校的双学位学生,她热衷于将技术和人工智能应用于解决现实世界中的挑战。怀着解决实际问题的热情,她为人工智能与现实生活解决方案的交汇处带来了新的视角。

关于《苹果研究人员提出GSM-Symbolic:一种新型的机器学习基准测试,包含多个变体,旨在更深入地洞察大型语言模型的数学推理能力。》
暂无评论

摘要

最近在大型语言模型(LLM)方面的进展激发了人们对它们数学推理能力的兴趣,特别是通过GSM8K基准测试来评估小学水平的数学能力。虽然LLM在GSM8K上的表现有所提高,但对其推理能力是否真正进步仍存在疑问,因为当前的指标可能只能部分捕捉到其能力。此外,添加不相关但看似相关的信息会导致性能下降高达65%,这表明LLM依赖于模式匹配而不是形式推理。一个新的基准测试GSM-Symbolic被引入,用于评估LLM在多个问题变体下的数学推理能力。如果您喜欢我们的工作,请订阅我们的通讯。不要忘记加入我们拥有50,000+成员的机器学习子论坛。 [即将举行的活动-202年10月17日] RetrieveX – 通用人工智能数据检索大会(推广) Sana Hassan是Marktechpost的咨询实习生,同时也是印度理工大学马德拉斯分校的双学位学生,热衷于将技术和AI应用于解决现实世界的挑战。