作者:Kyle Wiggers
一个著名的测试通用人工智能(AGI)这个问题即将得到解决,但测试的创建者表示,这表明了测试设计中的缺陷,而不是研究上的真正突破。
2019年,弗朗索瓦·肖莱人工智能领域的领军人物推出了 ARC-AGI 基准测试,它是“通用人工智能抽象和推理语料库”的缩写。旨在评估人工智能系统是否能够有效地获取其数据之外的新技能。受训于,ARC-AGI弗朗索瓦声称,这仍然是衡量通用智能进展的唯一人工智能测试(尽管其他的已被提议。)直到今年,表现最好的人工智能只能解决 ARC-AGI 中不到三分之一的任务。
Chollet 将此归咎于该行业对大型语言模型 (LLM) 的关注,他认为这种模型无法进行实际的“推理”。
“由于完全依赖记忆,法学硕士很难概括,”他说在二月份 X 上的一系列帖子中。“他们会分解训练数据中没有的任何内容。”
在 Chollet 看来,法学硕士是统计机器。经过大量示例的训练,他们学习这些示例中的模式来做出预测,就像电子邮件中通常先于“如何”“给谁”这样,这可能会引起关注。”
乔莱断言,虽然法学硕士可能能够记住“推理模式”,但他们不太可能根据新情况产生“新推理”。“如果您需要接受某种模式的许多示例的培训,即使它是隐式的,以便学习它的可重用表示,那么您就需要记住,”Chollet争论在另一篇文章中。
为了激励法学硕士以外的研究,Chollet 和 Zapier 联合创始人 Mike Knoop 于 6 月启动了 100 万美元的项目竞赛构建一个能够击败 ARC-AGI 的开源人工智能。在 17,789 份提交的作品中,最好的得分为 55.5%,比 2023 年的最高得分者高出约 20%,尽管还没有达到获胜所需的 85%(人类水平)门槛。
努普表示,但这并不意味着我们离 AGI 更近了 20%。
今天,我们宣布了 2024 年 ARC 奖的获奖者。我们还发布了一份内容广泛的技术报告,介绍我们从比赛中学到的知识(下一条推文中的链接)。
最先进的增长率从 33% 上升到 55.5%,这是自 2020 年以来我们看到的最大单年增幅。
– 弗朗索瓦·乔莱 (@fchollet)2024 年 12 月 6 日
在一个博客文章,努普表示,许多向 ARC-AGI 提交的内容都能够通过“暴力”方式找到解决方案,这表明 ARC-AGI 任务的“很大一部分”是“[不”]t] 为通用智能带来了许多有用的信号。”
ARC-AGI 包含类似谜题的问题,其中人工智能必须从一组不同颜色的方块中生成正确的“答案”网格。这些问题旨在迫使人工智能适应以前从未见过的新问题。但目前尚不清楚他们是否实现了这一目标。
——[ARC-AGI] 自 2019 年以来一直没有变化,而且并不完美。”努普在他的帖子中承认。
弗朗索瓦和努普也面临过批评过度吹捧 ARC-AGI 作为实现 AGI 的基准,特别是因为 AGI 的定义现在正受到激烈争论。最近一名 OpenAI 员工声称如果将 AGI 定义为人工智能,那么 AGI 就已经“已经”实现了——在大多数任务上都比大多数人类更好。
Knoop 和 Chollet 表示,他们计划发布第二代 ARC-AGI 基准来解决这些问题,并在 2025 年举办一场竞赛。“我们将继续引导研究界努力解决我们认为最重要的未解决问题”Chollet 在 X 中写道邮政。
修复可能并不容易。如果说第一个 ARC-AGI 测试的缺点有任何迹象的话,那么定义人工智能的智能将同样棘手——并且偏振——就像人类一样。