AGI 测试已接近解决，但可能存在缺陷TechCrunch

2024-12-10 01:36:40 英文原文

作者：Kyle Wiggers

一个著名的测试通用人工智能（AGI）这个问题即将得到解决，但测试的创建者表示，这表明了测试设计中的缺陷，而不是研究上的真正突破。

2019年，弗朗索瓦·肖莱人工智能领域的领军人物推出了 ARC-AGI 基准测试，它是“通用人工智能抽象和推理语料库”的缩写。旨在评估人工智能系统是否能够有效地获取其数据之外的新技能。受训于,ARC-AGI弗朗索瓦声称，这仍然是衡量通用智能进展的唯一人工智能测试（尽管其他的已被提议。）直到今年，表现最好的人工智能只能解决 ARC-AGI 中不到三分之一的任务。

Chollet 将此归咎于该行业对大型语言模型 (LLM) 的关注，他认为这种模型无法进行实际的“推理”。

“由于完全依赖记忆，法学硕士很难概括，”他说在二月份 X 上的一系列帖子中。“他们会分解训练数据中没有的任何内容。”

在 Chollet 看来，法学硕士是统计机器。经过大量示例的训练，他们学习这些示例中的模式来做出预测，就像电子邮件中通常先于“如何”“给谁”这样，这可能会引起关注。”

乔莱断言，虽然法学硕士可能能够记住“推理模式”，但他们不太可能根据新情况产生“新推理”。“如果您需要接受某种模式的许多示例的培训，即使它是隐式的，以便学习它的可重用表示，那么您就需要记住，”Chollet争论在另一篇文章中。

为了激励法学硕士以外的研究，Chollet 和 Zapier 联合创始人 Mike Knoop 于 6 月启动了 100 万美元的项目竞赛构建一个能够击败 ARC-AGI 的开源人工智能。在 17,789 份提交的作品中，最好的得分为 55.5%，比 2023 年的最高得分者高出约 20%，尽管还没有达到获胜所需的 85%（人类水平）门槛。

努普表示，但这并不意味着我们离 AGI 更近了 20%。

今天，我们宣布了 2024 年 ARC 奖的获奖者。我们还发布了一份内容广泛的技术报告，介绍我们从比赛中学到的知识（下一条推文中的链接）。

最先进的增长率从 33% 上升到 55.5%，这是自 2020 年以来我们看到的最大单年增幅。

– 弗朗索瓦·乔莱 (@fchollet)2024 年 12 月 6 日

在一个博客文章，努普表示，许多向 ARC-AGI 提交的内容都能够通过“暴力”方式找到解决方案，这表明 ARC-AGI 任务的“很大一部分”是“[不”]t] 为通用智能带来了许多有用的信号。”

ARC-AGI 包含类似谜题的问题，其中人工智能必须从一组不同颜色的方块中生成正确的“答案”网格。这些问题旨在迫使人工智能适应以前从未见过的新问题。但目前尚不清楚他们是否实现了这一目标。

ARC-AGI benchmark — ARC-AGI 基准测试中的任务。模型必须解决顶行中的“问题”；底行显示解决方案。**图片来源：**ARC-AGI

——[ARC-AGI] 自 2019 年以来一直没有变化，而且并不完美。”努普在他的帖子中承认。

弗朗索瓦和努普也面临过批评过度吹捧 ARC-AGI 作为实现 AGI 的基准，特别是因为 AGI 的定义现在正受到激烈争论。最近一名 OpenAI 员工声称如果将 AGI 定义为人工智能，那么 AGI 就已经“已经”实现了——在大多数任务上都比大多数人类更好。

Knoop 和 Chollet 表示，他们计划发布第二代 ARC-AGI 基准来解决这些问题，并在 2025 年举办一场竞赛。“我们将继续引导研究界努力解决我们认为最重要的未解决问题”Chollet 在 X 中写道邮政。

修复可能并不容易。如果说第一个 ARC-AGI 测试的缺点有任何迹象的话，那么定义人工智能的智能将同样棘手——并且偏振——就像人类一样。

关于《AGI 测试已接近解决，但可能存在缺陷TechCrunch》的评论

暂无评论

发表评论

摘要

Francois Chollet 于 2019 年推出的用于评估通用人工智能 (AGI) 的 ARC-AGI 基准已接近解决方案，但其创建者认为这表明了测试中的缺陷，而不是 AGI 的突破。最近提交的分数达到了 55.5%，高于之前的 33%，但仍低于“人类水平”性能 85% 的门槛。批评者认为许多解决方案都是暴力方法，质疑 ARC-AGI 是否真正衡量一般智力。Chollet 和联合创始人 Mike Knoop 计划在 2025 年发布更新版本来解决这些问题。

AGI 测试已接近解决，但可能存在缺陷TechCrunch

关于《AGI 测试已接近解决，但可能存在缺陷TechCrunch》的评论

发表评论

摘要

相关新闻

相关讨论