苹果研究揭示了OpenAI、谷歌和Meta语言模型中的重大AI缺陷

2024-10-14 17:21:02 英文原文

他们的推理能力可能并没有看上去那么强。

ChatGPT on AppStore displayed on a phone screen and Apple logo dislpayed on a screen in the background

研究人员发现了一些严重的问题,涉及大型语言模型的推理能力。 版权:Jakub Porzycki / NurPhoto / Getty Images

据称大型语言模型(LLM)可能并没有看起来那么聪明学习苹果公司研究人员。

来自OpenAI、Google、Meta等公司的大型语言模型因其出色的推理能力而备受推崇。但研究表明,它们所谓的智能可能更接近于“复杂的模式匹配”,而非“真正的逻辑推理”。没错,即使是OpenAI的也是如此。o1 高级推理模型.

最常用的推理技能基准测试是称为GSM8K的测试,但由于它非常流行,存在数据污染的风险。这意味着大规模语言模型可能是因为接受了这些答案的训练而知道测试的答案,而不是因为它们本身具有这种智能。

为了测试这一点,该研究开发了一个新的基准测试叫做GSM-Symbolic,它保留了推理问题的本质,但改变了变量,比如名字、数字、复杂度,并加入了无关信息。他们发现的是令人惊讶的“脆弱性”在大型语言模型的表现中。这项研究测试了超过20个模型,包括OpenAI的o1和GPT-4o、Google的Gemma 2以及Meta的Llama 3。每一个模型在其变量改变时表现都下降了。

准确性在更改名称和变量时下降了几个百分点。正如研究人员指出的,OpenAI的模型表现优于其他开源模型。然而,这种变化幅度被认为“不可忽略”,意味着任何实际的变化都不应发生。但是,当研究人员加入了一些“看似相关但实际上无足轻重的陈述”时,事情变得非常有趣。

Mashable极速版

为了检验大语言模型更依赖于模式匹配而非实际推理的假设,该研究在数学问题中添加了多余的短语,以观察这些模型会如何反应。例如,“奥利弗在星期五摘了44个奇异果。然后他在星期六摘了58个奇异果。星期天,他摘的奇异果数量是星期五的两倍。但其中五个稍微小于平均水平。奥利弗有多少颗奇异果?

结果是整体性能出现了显著下降。OpenAI的o1 Preview表现最好,准确率下降了17.5%。这仍然相当糟糕,但没有微软的Phi 3模型那么差,后者的性能下降了65%。

在猕猴桃的例子中,研究指出大型语言模型倾向于从等式中去掉五个较小的猕猴桃,而不理解猕猴桃的大小与问题无关。这表明“模型倾向于将陈述转换为操作而没有真正理解其含义”,从而验证了研究人员的假设,即大型语言模型寻找推理问题中的模式,而不是天生理解概念。

该研究对其发现直言不讳。在包含无关信息的基准测试中,模型的表现“揭示了大型语言模型真正理解数学概念以及区分解决问题所需相关信息的能力上的一个关键缺陷。”然而值得注意的是,这项研究的作者就职于苹果公司,而苹果显然是谷歌、Meta甚至OpenAI的主要竞争对手——尽管苹果和OpenAI有合作关系,但苹果也在开发自己的人工智能模型。

说到底,大语言模型在形式推理能力上的不足是不能忽视的。最终,这提醒我们要用健康的怀疑态度来平衡对人工智能的炒作。

Mashable Image

Cecily 是 Mashable 的一位科技记者,负责报道人工智能、苹果公司和新兴技术趋势。在哥伦比亚新闻学院获得硕士学位之前,她曾在 Unreasonable Group 和 B Lab 为初创企业和具有社会影响力的企业工作了数年。在此之前,她与他人共同创立了一家咨询业务,为南美、欧洲和亚洲的新兴创业中心提供服务。你可以在 Twitter 上找到她@cecily_mauran.

此通讯可能包含广告、优惠或联属链接。订阅通讯即表示您同意我们的 TERMS OF SERVICE AND PRIVACY POLICY(服务条款和隐私政策)服务条款以及隐私政策您可以随时取消订阅 newsletter。

关于《苹果研究揭示了OpenAI、谷歌和Meta语言模型中的重大AI缺陷》
暂无评论

摘要

他们的推理能力可能并没有看起来那么先进。为了测试这一点,该研究开发了一个新的基准测试称为GSM-Symbolic,它保留了推理问题的本质,但改变了变量,如名字、数字、复杂度,并加入了无关信息。“奥利弗有多少 kiwi 果?”结果是整体性能显著下降。OpenAI 的 o1 Preview 表现最佳,准确率下降了 17.5%。您可以在任何时候取消订阅新闻通讯。