苹果研究人员提出GSM-Symbolic：一种新型的机器学习基准测试，包含多个变体，旨在更深入地洞察大型语言模型的数学推理能力。

2024-10-13 19:43:44 英文原文

作者：Sana Hassan

最近在大型语言模型（LLM）方面的进步激发了人们对它们数学推理能力的兴趣，尤其是在GSM8K基准测试中，该基准用于评估小学水平的数学能力。尽管LLM在GSM8K上的表现有所提高，但人们仍然怀疑它们的推理能力是否真正得到了提升，因为当前的度量标准可能只能部分捕捉到它们的能力。研究表明，LLM依赖于概率模式匹配而不是真正的逻辑推理，导致令牌偏差和对小输入变化的敏感性。此外，GSM8K静态性质及其依赖单一指标评估限制了它在不同条件下评估LLM推理能力的有效性。

逻辑推理对于智能系统至关重要，但大型语言模型（LLM）的逻辑一致性仍有待确定。尽管一些研究表明，LLM可以通过概率模式匹配来处理任务，但在输入令牌发生变化时，它们通常需要更正式的推理，因为这会显著改变结果。虽然在某些情况下有效，但如果支持外部内存（如草稿板），转换器对于复杂任务仍需更具表达能力。研究显示，LLM依赖于训练期间见过的数据匹配，而不是真正的逻辑理解。

苹果公司的研究人员进行了一项大规模研究，使用一个名为GSM-Symbolic的新基准来评估最先进的大型语言模型（LLM）的推理能力。该基准通过符号模板生成多样的数学问题，从而实现更可靠和可控的评估。他们的发现表明，当数值或问题复杂度增加时，LLM的表现显著下降。此外，添加不相关但看似相关的信息会导致性能下降高达65%，这表明LLM依赖于模式匹配而不是正式推理。该研究强调了改进评估方法和进一步研究LLM推理能力的必要性。

GSM8K数据集包含超过8000个小学水平的数学问题和答案，常用于评估大型语言模型（LLM）。然而，由于其流行度，出现了诸如数据污染和因细微问题变化导致性能差异等风险。为解决这些问题，开发了GSM-Symbolic，该工具使用符号模板生成多样化的题目实例。这种方法能够更稳健地评估LLM，提供对问题难度的更好控制，并测试模型在多种变体中的能力。基准测试使用100个模板中抽取的5000个样本，对20多个开源和闭源模型进行了评测，揭示了LLM数学推理能力和局限性的洞察。

初步实验表明，在GSM8K数据集的一个变体GSM-Symbolic上，不同模型的表现存在显著差异，并且准确性低于在GSM8K上的报告结果。该研究进一步探讨了更改名称与改变数值对大语言模型的影响，结果显示数值变化会显著降低性能。问题难度也会影响准确率，复杂度更高的问题会导致性能下降更多。实验结果表明，模型可能依赖于模式匹配而非真正的推理能力，因为额外的条款常常会降低它们的表现。

该研究考察了大型语言模型的推理能力，并强调了当前GSM8K评估中的局限性。引入了一个新的基准测试GSM-Symbolic，用于评估大型语言模型在多变问题情况下的数学推理能力。结果显示，在改变数值或添加无关条款时存在显著的表现差异。当问题复杂度增加时，大型语言模型也需要更多的帮助，这表明它们更依赖于模式匹配而非真正的推理能力。GSM-NoOp进一步揭示了大型语言模型无法过滤掉无关信息的能力不足，导致性能大幅下降。总体而言，这项研究强调了提高大型语言模型逻辑推理能力的必要性。

查看一下纸张此研究的所有荣誉归于该项目的研究人员。也不要忘了关注我们在推特并加入我们电报频道以及领英 Group. 如果你喜欢我们的工作，你会爱上我们的通讯Newsletter不要忘记加入我们50k+ 机器学习 SubReddit

即将举行的活动 - 2022年10月17日 RetrieveX – 生成式AI数据检索大会（推广）

桑娜·哈桑是Marktechpost的咨询实习生，同时也是印度理工学院马德拉斯分校的双学位学生，她热衷于将技术和人工智能应用于解决现实世界中的挑战。怀着解决实际问题的热情，她为人工智能与现实生活解决方案的交汇处带来了新的视角。

关于《苹果研究人员提出GSM-Symbolic：一种新型的机器学习基准测试，包含多个变体，旨在更深入地洞察大型语言模型的数学推理能力。》的评论

暂无评论

发表评论

摘要

最近在大型语言模型（LLM）方面的进展激发了人们对它们数学推理能力的兴趣，特别是通过GSM8K基准测试来评估小学水平的数学能力。虽然LLM在GSM8K上的表现有所提高，但对其推理能力是否真正进步仍存在疑问，因为当前的指标可能只能部分捕捉到其能力。此外，添加不相关但看似相关的信息会导致性能下降高达65%，这表明LLM依赖于模式匹配而不是形式推理。一个新的基准测试GSM-Symbolic被引入，用于评估LLM在多个问题变体下的数学推理能力。如果您喜欢我们的工作，请订阅我们的通讯。不要忘记加入我们拥有50,000+成员的机器学习子论坛。 [即将举行的活动-202年10月17日] RetrieveX – 通用人工智能数据检索大会（推广） Sana Hassan是Marktechpost的咨询实习生，同时也是印度理工大学马德拉斯分校的双学位学生，热衷于将技术和AI应用于解决现实世界的挑战。

苹果研究人员提出GSM-Symbolic：一种新型的机器学习基准测试，包含多个变体，旨在更深入地洞察大型语言模型的数学推理能力。

关于《苹果研究人员提出GSM-Symbolic：一种新型的机器学习基准测试，包含多个变体，旨在更深入地洞察大型语言模型的数学推理能力。》的评论

发表评论

摘要

相关新闻

相关讨论