苹果研究人员发现了尖端人工智能模型的基本局限开发更强大的系统。
苹果在报纸上说在周末发表的大型推理模型(LRMS)时,AI的先进形式在出现高度复杂的问题时面临着完全准确的崩溃。
它发现,标准AI模型在低复杂任务中的表现优于LRM,而两种模型都遭受了具有高复杂性任务的完全崩溃。大型推理模型试图通过生成详细的思维过程来解决复杂的查询,从而将问题分解为较小的步骤。
该研究测试了模型解决难题的能力,并补充说,随着LRM临近性能崩溃,他们开始减少其推理工作。这苹果研究人员说,他们发现这一点尤其令人担忧。
加里·马库斯(Gary Marcus)是美国学者,他已成为AI模型能力的谨慎声音,他将苹果纸描述为非常毁灭性的。
在他的替代时事通讯中写信, 马库斯补充说,这些发现提出了有关人工通用情报(AGI)的疑问,AI的理论阶段系统能够与人类进行任何智力任务相匹配。
马库斯(Marcus)指的是诸如Chatgpt之类的工具的大型语言模型[LLMS]:
该论文还发现,推理模型通过找到正确的解决方案来浪费了计算能力。但是,随着问题变得更加复杂,模型首先探索了错误的解决方案,并以后到达了正确的解决方案。
但是,对于更高的复杂性问题,模型将进入“崩溃”,未能生成任何正确的解决方案。在一种情况下,即使提供了解决问题的算法,模型也失败了。
该论文说:``接近关键阈值时,它与它们的准确性崩溃点非常相对应 - 尽管问题难以增加,但违反直觉的模型开始减少其推理工作。”
苹果专家说,这表明当前推理模型的思维能力有基本的缩放限制。
新闻通讯促销之后
论文设定了LRMS拼图挑战,例如解决河内塔和河道拼图。研究人员承认,对难题的关注是工作的局限性。
该论文得出的结论是,当前的AI方法可能已经达到了局限性。它测试了包括Openai S O3,Google的双子座思维,拟人化3.7十四行诗和的模型DeepSeek-R1。已联系拟人化,Google和DeepSeek以供评论。Chatgpt背后的公司Openai拒绝置评。
该论文说,提到可概括的推理或AI模型的实现狭窄结论的能力。
萨里大学以人为中心的AI研究所的安德鲁·罗戈斯基(Andrew Rogoyski)表示,苹果纸表明该行业仍在对AGI感到兴奋,并且该行业在当前的方法中可能已经达到了Cul-De-Sac。
他说:``很大的理由模型在复杂问题上失去了情节,同时在中和低复杂性问题上表现良好,这意味着我们在当前的方法中潜在的CUL-DE-SAC中。”