英语轻松读发新版了,欢迎下载、更新

AGI 测试已接近解决,但可能存在缺陷TechCrunch

2024-12-10 01:36:40 英文原文

作者:Kyle Wiggers

一个著名的测试通用人工智能(AGI)这个问题即将得到解决,但测试的创建者表示,这表明了测试设计中的缺陷,而不是研究上的真正突破。

2019年,弗朗索瓦·肖莱人工智能领域的领军人物推出了 ARC-AGI 基准测试,它是“通用人工智能抽象和推理语料库”的缩写。旨在评估人工智能系统是否能够有效地获取其数据之外的新技能。受训于,ARC-AGI弗朗索瓦声称,这仍然是衡量通用智能进展的唯一人工智能测试(尽管其他的已被提议。)直到今年,表现最好的人工智能只能解决 ARC-AGI 中不到三分之一的任务。

Chollet 将此归咎于该行业对大型语言模型 (LLM) 的关注,他认为这种模型无法进行实际的“推理”。

“由于完全依赖记忆,法学硕士很难概括,”他在二月份 X 上的一系列帖子中。“他们会分解训练数据中没有的任何内容。”

在 Chollet 看来,法学硕士是统计机器。经过大量示例的训练,他们学习这些示例中的模式来做出预测,就像电子邮件中通常先于“如何”“给谁”这样,这可能会引起关注。”

乔莱断言,虽然法学硕士可能能够记住“推理模式”,但他们不太可能根据新情况产生“新推理”。“如果您需要接受某种模式的许多示例的培训,即使它是隐式的,以便学习它的可重用表示,那么您就需要记住,”Chollet争论在另一篇文章中。

为了激励法学硕士以外的研究,Chollet 和 Zapier 联合创始人 Mike Knoop 于 6 月启动了 100 万美元的项目竞赛构建一个能够击败 ARC-AGI 的开源人工智能。在 17,789 份提交的作品中,最好的得分为 55.5%,比 2023 年的最高得分者高出约 20%,尽管还没有达到获胜所需的 85%(人类水平)门槛。

努普表示,但这并不意味着我们离 AGI 更近了 20%。

今天,我们宣布了 2024 年 ARC 奖的获奖者。我们还发布了一份内容广泛的技术报告,介绍我们从比赛中学到的知识(下一条推文中的链接)。

最先进的增长率从 33% 上升到 55.5%,这是自 2020 年以来我们看到的最大单年增幅。

– 弗朗索瓦·乔莱 (@fchollet)2024 年 12 月 6 日

在一个博客文章,努普表示,许多向 ARC-AGI 提交的内容都能够通过“暴力”方式找到解决方案,这表明 ARC-AGI 任务的“很大一部分”是“[不”]t] 为通用智能带来了许多有用的信号。”

ARC-AGI 包含类似谜题的问题,其中人工智能必须从一组不同颜色的方块中生成正确的“答案”网格。这些问题旨在迫使人工智能适应以前从未见过的新问题。但目前尚不清楚他们是否实现了这一目标。

ARC-AGI benchmark
ARC-AGI 基准测试中的任务。模型必须解决顶行中的“问题”;底行显示解决方案。图片来源:ARC-AGI

——[ARC-AGI] 自 2019 年以来一直没有变化,而且并不完美。”努普在他的帖子中承认。

弗朗索瓦和努普也面临过批评过度吹捧 ARC-AGI 作为实现 AGI 的基准,特别是因为 AGI 的定义现在正受到激烈争论。最近一名 OpenAI 员工声称如果将 AGI 定义为人工智能,那么 AGI 就已经“已经”实现了——在大多数任务上都比大多数人类更好。

Knoop 和 Chollet 表示,他们计划发布第二代 ARC-AGI 基准来解决这些问题,并在 2025 年举办一场竞赛。“我们将继续引导研究界努力解决我们认为最重要的未解决问题”Chollet 在 X 中写道邮政

修复可能并不容易。如果说第一个 ARC-AGI 测试的缺点有任何迹象的话,那么定义人工智能的智能将同样棘手——并且偏振——就像人类一样。

关于《AGI 测试已接近解决,但可能存在缺陷TechCrunch》的评论


暂无评论

发表评论

摘要

Francois Chollet 于 2019 年推出的用于评估通用人工智能 (AGI) 的 ARC-AGI 基准已接近解决方案,但其创建者认为这表明了测试中的缺陷,而不是 AGI 的突破。最近提交的分数达到了 55.5%,高于之前的 33%,但仍低于“人类水平”性能 85% 的门槛。批评者认为许多解决方案都是暴力方法,质疑 ARC-AGI 是否真正衡量一般智力。Chollet 和联合创始人 Mike Knoop 计划在 2025 年发布更新版本来解决这些问题。