作者们伊曼·米尔扎德赫,凯万·阿里扎德赫,胡曼·沙赫罗基,奥内尔·图泽尔,萨米·本吉奥,梅赫拉德·法拉杰塔巴尔

近年来,大型语言模型(LLM)在形式推理能力方面特别是数学方面的进展引起了人们的兴趣。GSM8K基准测试被广泛用于评估模型对小学水平问题的数学推理能力。尽管近年来LLM在GSM8K上的表现显著提高,但它们的数学推理能力是否真正有所进步仍然不清楚,这引发了人们对报告指标可靠性的质疑。为了应对这些担忧,我们对几种最先进的开放和封闭模型进行了大规模研究。为克服现有评估方法的局限性,我们引入了GSM-Symbolic,这是一个由符号模板生成、允许产生多样化问题集的新基准测试改进版。GSM-Symbolic能够进行更可控的评估,并提供了关键洞察力以及用于衡量模型推理能力的更为可靠的指标。我们的研究发现,LLM在回答同一问题的不同实例时表现出明显的差异性。具体来说,在GSM-Symbolic基准测试中,仅改变问题中的数值会使所有模型的表现下降。此外,我们还调查了这些模型数学推理的脆弱性,并展示了随着问题中子句数量的增加,它们的表现会显著恶化。我们认为这种表现下降是因为当前LLM无法进行真正的逻辑推理;而是复制训练数据中的推理步骤。添加一个看似相关但并不实际贡献到最终答案所需推理链的新子句会导致所有最新模型的性能大幅下降(最高可达65%)。总体而言,我们的工作为理解LLM在数学推理方面的能力和局限性提供了更为细致的理解。

相关阅读和更新。

本文在ACL 2024的自然语言推理和结构化解释工作坊上被接受。 来自AI反馈的强化学习(RLAIF)已经在多个领域展示了巨大的潜力,包括减轻大型语言模型输出的危害、增强文本摘要以及数学推理。本文介绍了一种用于改进轻量级(<1B参数)LLM代码生成能力的RLAIF框架。我们……

查看论文详情

我们研究了变压器模型在关系推理任务上的能力。在这种任务中,模型是在一组编码抽象关系的字符串上进行训练的,并且在测试时会在包含未出现在训练数据集中的符号的数据上进行分布外测试。我们证明,对于一个大型任务家族中的任何关系推理任务,当使用……进行训练时,变压器能够学习到抽象的关系并泛化到测试集中。

查看论文详情