英语轻松读发新版了,欢迎下载、更新

苹果称AI的数学技能不足 | PYMNTS.com

2024-10-18 19:33:21 英文原文

作者:PYMNTS

最近发现成果来自苹果公司的研究人员对大型语言模型(LLM)的数学能力表示怀疑,提出了挑战观念人工智能(AI)正处于类似人类推理的边缘。

在一项针对20种最先进的大型语言模型的测试中,苹果公司发现当问题稍作修改或添加无关信息时,这些模型在小学数学题上的表现急剧下降。准确率最多下降了65.7%,这揭示了面对需要强大逻辑推理的任务时,人工智能系统的脆弱性。

这一弱点可能对依赖AI进行复杂决策的商业活动产生深远的影响。特别是金融机构,可能需要重新评估他们在涉及复杂计算或风险评估任务中使用AI的情况。

这场辩论的核心在于通用人工智能(通用人工智能)的概念——这是人工智能的圣杯,能够在各种任务中匹配或超越人类智能。虽然一些科技领袖预测通用人工智能即将来临,但这些研究结果表明我们可能距离这一目标比之前认为的要远。

“任何需要进行的那种可以明确验证(或无法验证)的推理类型的现实世界应用,对于大型语言模型来说基本上是不可能一致正确地完成的。”塞尔默·布林斯约德,教授伦斯勒理工学院告诉PYMNTS。

Bringsjord 明确区分了人工智能和传统计算:“你的智能手机上的计算器所能做的事情是大型语言模型无法做到的——因为如果有人真的想确保你从 iPhone 调用的计算结果是正确的,苹果最终总是能够验证或证伪这个结果。”

限制和理解

并非所有专家都认为苹果公司论文中披露的限制同样令人担忧。“这项研究中概述的限制对LLM的实际应用影响很小,因为大多数基于LLM的实际应用并不需要高级数学推理。”阿拉文·昌德拉姆乌利,某数据科学公司的AI负责人特伦斯公司,告诉PYMNTS。

潜在的解决方案存在,例如针对特定领域对预训练模型进行微调或提示工程。专门化的模型如巫师数学以及MathGPT设计用于数学任务,可以增强AI在需要严格逻辑思维领域的能力。

争论不仅限于数学,而是延伸到一个根本性的问题:这些AI是否真正理解了什么?这个问题是关于通用人工智能(AGI)和机器认知讨论的核心。

“LLM完全不懂它们所做的事。它们只是在存储的数据中搜索统计上类似的子语言模式,”Bringsjord说。

钱德拉穆利说:“虽然他们连贯的答案可以产生理解的错觉,但将数据中的统计相关性进行映射的能力并不意味着他们真正理解了自己在执行的任务。”这一见解突显了区分人工智能系统中复杂模式识别和真正的理解之间的挑战。

埃里克·布拉维克,首席执行官 của提升倡议承认当前的局限性但看到了潜在的解决方案。“大型语言模型(LLM)不具备进行数学计算的能力。它们不懂得数学,”他说。然而,他建议将LLM与专门的AI子系统结合使用可能会带来更准确的结果。

“当与经过数学训练的专用AI子系统结合时,它们可以检索到准确的答案,而不是基于用于语言生成的统计模型来生成答案,”Bravick说道。新兴技术如检索增强生成(RAG)系统和多模态AI可以解决当前人工智能推理中的限制。

一个不断发展的领域

人工智能领域继续快速发展,大型语言模型展示了出色的语言处理和生成能力。然而,它们在逻辑推理和数学理解方面的困难表明,要实现通用人工智能仍有大量工作要做。

仔细评估和测试人工智能系统仍然至关重要,特别是在那些要求可靠推理的高风险应用中。研究人员和开发人员可能会在诸如以下方法中找到有希望的路径:微调专门模型和 多模态AI系统他们努力缩小当前人工智能能力与设想的强大通用智能之间的差距。

订阅每日PYMNTS人工智能报道 AI通讯newsletter翻译更准确一些是“AI通讯简报”,但考虑到简洁性,“AI通讯”也是常用表达。如果必须选择一个词对词的翻译:“人工智能通讯”。根据上下文灵活使用。原文为:"AI Newsletter" 如果需要保持原意直接翻译则为:AI通讯简报。.

关于《苹果称AI的数学技能不足 | PYMNTS.com》的评论


暂无评论

发表评论

摘要

最近苹果公司的研究人员的发现对大型语言模型(LLM)的数学能力提出了质疑,挑战了人工智能即将达到类人推理水平的说法。“任何需要进行可以明确验证(或不能验证)的推理类型的现实世界应用对于LLM来说基本上是不可能一致地做到正确的。”伦斯勒理工学院的Selmer Bringsjord教授在接受PYMNTS采访时说。The Lifted Initiative的首席执行官Eric Bravick承认当前的局限性,但看到了潜在的解决方案。“大型语言模型(LLM)不具备进行数学计算的能力。研究人员和开发人员在努力弥合现有AI能力与预期的强大、通用智能之间的差距时,可能会在诸如微调、专门化模型和多模态AI系统等方法中发现有希望的道路。”