GSM-符号型:理解大型语言模型在数学推理方面的局限性
作者们伊曼·米尔扎德赫,凯万·阿里扎德赫,胡曼·沙赫罗基,奥内尔·图泽尔,萨米·本吉奥,梅赫拉德·法拉杰塔巴尔
近年来,大型语言模型(LLM)在形式推理能力方面特别是数学方面的进展引起了人们的兴趣。GSM8K基准测试被广泛用于评估模型对小学水平问题的数学推理能力。尽管近年来LLM在GSM8K上的表现显著提高,但它们的数学推理能力是否真正有所进步仍然不清楚,这引发了人们对报告指标可靠性的质疑。为了应对这些担忧,我们对几种最先进的开放和封闭模型进行了大规模研究。为克服现有评估方法的局限性,我们引入了GSM-Symbolic,这是一个由符号模板生成、允许产生多样化问题集的新基准测试改进版。GSM-Symbolic能够进行更可控的评估,并提供了关键洞察力以及用于衡量模型推理能力的更为可靠的指标。我们的研究发现,LLM在回答同一问题的不同实例时表现出明显的差异性。具体来说,在GSM-Symbolic基准测试中,仅改变问题中的数值会使所有模型的表现下降。此外,我们还调查了这些模型数学推理的脆弱性,并展示了随着问题中子句数量的增加,它们的表现会显著恶化。我们认为这种表现下降是因为当前LLM无法进行真正的逻辑推理;而是复制训练数据中的推理步骤。添加一个看似相关但并不实际贡献到最终答案所需推理链的新子句会导致所有最新模型的性能大幅下降(最高可达65%)。总体而言,我们的工作为理解LLM在数学推理方面的能力和局限性提供了更为细致的理解。
相关阅读和更新。
关于《GSM-符号型:理解大型语言模型在数学推理方面的局限性》的评论
暂无评论
发表评论
摘要
作者:伊马尼·米尔扎德赫,凯万·阿里扎德,胡曼·沙罗基,奥内尔·图泽尔,萨米·本吉奥,梅赫拉德·法拉杰塔尔
在大型语言模型(LLM)方面的最新进展激发了人们对它们形式化推理能力的兴趣,特别是在数学领域。为了克服现有评估方法的局限性,我们引入了GSM-Symbolic,这是一个通过符号模板生成多样化问题集的改进基准测试。此外,我们研究了这些模型中数学推理的脆弱性,并证明随着一个问题中的子句数量增加,它们的表现会显著下降。
……查看论文详情
我们在关系推理任务中研究了变换器模型的能力。在这些任务中,模型是在包含抽象关系编码字符串的数据集上进行训练的,然后在测试阶段使用未出现在训练数据集中的符号进行分布外(OOD)测试。
