作者们伊曼·米尔扎德赫,凯万·阿里扎德赫,胡曼·沙赫罗基,奥内尔·图泽尔,萨米·本吉奥,梅赫拉德·法拉杰塔巴尔
近年来,大型语言模型(LLM)在形式推理能力方面特别是数学方面的进展引起了人们的兴趣。GSM8K基准测试被广泛用于评估模型对小学水平问题的数学推理能力。尽管近年来LLM在GSM8K上的表现显著提高,但它们的数学推理能力是否真正有所进步仍然不清楚,这引发了人们对报告指标可靠性的质疑。为了应对这些担忧,我们对几种最先进的开放和封闭模型进行了大规模研究。为克服现有评估方法的局限性,我们引入了GSM-Symbolic,这是一个由符号模板生成、允许产生多样化问题集的新基准测试改进版。GSM-Symbolic能够进行更可控的评估,并提供了关键洞察力以及用于衡量模型推理能力的更为可靠的指标。我们的研究发现,LLM在回答同一问题的不同实例时表现出明显的差异性。具体来说,在GSM-Symbolic基准测试中,仅改变问题中的数值会使所有模型的表现下降。此外,我们还调查了这些模型数学推理的脆弱性,并展示了随着问题中子句数量的增加,它们的表现会显著恶化。我们认为这种表现下降是因为当前LLM无法进行真正的逻辑推理;而是复制训练数据中的推理步骤。添加一个看似相关但并不实际贡献到最终答案所需推理链的新子句会导致所有最新模型的性能大幅下降(最高可达65%)。总体而言,我们的工作为理解LLM在数学推理方面的能力和局限性提供了更为细致的理解。