作者:Deni Ellis Béchard
发现为什么有些难题是Suppersmart AIS,但对于人类来说很容易,这揭示了有关真正的人工通用情报的追求以及为什么视频游戏是下一个边界
Flavio Coelho/Getty图像
有很多方法可以测试人工智能–对话流动性,阅读理解或令人难以置信的物理学。但是一些最有可能陷入困境的测试AIS是人类发现相对容易甚至有趣的人。尽管AIS越来越多地在需要高水平的人类专业知识的任务上表现出色,但这并不意味着它们即将获得人工通用智能或AGI。Agi要求AI可以获取非常少量的信息,并使用它来概括并适应高度新颖的情况。这种能力,这是人类学习的基础,对于AIS仍然具有挑战性。
一项旨在评估AI概括能力的测试是抽象和推理语料库,即:一个小的,有色网格的难题的集合,要求求解器推断出隐藏的规则,然后将其应用于新的网格。它由AI研究员Franã§oisChollet于2019年开发,成为ARC奖基金会的基础,ARC奖基金会是一项非营利计划,该计划正在管理测试,现在是所有主要AI模型使用的行业基准。该组织还开发了新的测试,并通常使用两个(Arc-Agi-1及其更具挑战性的继任者ARC-AGI-2)。本周,基金会将启动ARC-AGI-3,该ARC-AGI-3专门设计用于测试AI代理商,并基于使它们玩视频游戏。
科学美国人与ARC奖基金会主席,AI研究人员和企业家Greg Kamradt进行了交谈,以了解这些测试如何评估AIS,他们告诉我们AGI的潜力以及为什么他们对深度学习模型的挑战,即使许多人倾向于发现它们相对容易。尝试测试的链接在文章的末尾。
如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻业订阅。通过购买订阅,您可以帮助确保有关当今世界的发现和想法有影响力的故事的未来。
[随后是访谈的编辑笔录。这是给出的
Arc-Agi-1衡量智力的定义是什么?
我们对智力的定义是您学习新事物的能力。我们已经知道AI可以在国际象棋中获胜。我们知道他们可以击败去。但是这些模型无法推广到新的领域。他们可以去学习英语。因此,Franã§oisChollet所做的是一个名为Arc-Agiâ的基准,它教您这个问题中的迷你技能,然后要求您证明该迷你技能。我们基本上要教一些东西,并要求您重复您刚刚学到的技能。因此,该测试衡量了模型在狭窄领域内学习的能力。但是我们的说法是它不能衡量AGI,因为它仍然处于范围内(仅适用于有限领域的学习领域)。它衡量了人工智能可以概括,但我们不声称这是AGI。
您在这里如何定义AGI?
我看着两种方式。第一个是更具技术向往的方式,哪个是人造系统可以匹配人类的学习效率?实际上,他们真的没有有培训数据,除了几个进化先验。因此,我们学习如何说英语,学习如何驾驶汽车,然后学习如何在训练数据之外骑自行车。这称为概括。当您可以在现在接受过培训的事情之外做事时,我们将其定义为智力。现在,我们使用的AGI的另一种定义是,当我们不再提出人类可以做的问题时,当我们有AGI时,AI不能。这是一个观察性的定义。翻转方面也是正确的,只要弧度奖或人类总体上仍然可以找到人类可以做的问题,但AI不能,我们就没有AGI。Franã§oisChollet的基准的关键因素之一是我们在他们身上测试人类,而普通人可以执行这些任务和这些问题,但是AI仍然很难做到这一点。如此有趣的原因是,一些高级的AI,例如Grok,可以通过任何研究生级考试或进行所有这些疯狂的事情,但这是尖锐的智慧。它仍然没有人类的概括能力。这就是这个基准显示的内容。
您的基准与其他组织使用的基准有何不同?
区分我们的一件事是,我们要求人类可以解决我们的基准。这与其他基准相反,他们在那里进行博士学位 - 加上问题。我不需要告诉我的人工智能比我聪明。我已经知道,Openai的O3可以比我做得更好,但是它没有人类的能力来概括。这就是我们测量的,因此我们需要测试人类。实际上,我们在Arc-Agi-2上测试了400人。我们把它们放在一个房间里,给了他们计算机,进行了人口检查,然后给了他们测试。普通人在ARC-AGI-2上得分66%。但是,总的来说,五到10人的汇总回答将包含对ARC2上所有问题的正确答案。
是什么使AI难以使人类难以容易?
有两件事。人类的学习方式非常有效,这意味着他们可以看一个问题,并且大概有一个或两个例子,他们可以掌握迷你技能或转型,并且可以去做。在人类头部运行的算法比我们现在看到的AI更好,更高效的算法。
Arc-Agi-1和Arc-Agi-2有什么区别?
因此,arc-agi-1,弗朗·乔伊斯(Franã§oisChollet)本人。大约是1,000个任务。那是在2019年。他基本上是为了衡量概括而进行的最低可行版本,并且它持续了五年,因为深度学习根本无法触及它。甚至还没有接近。然后,由Openai发行的推理模型开始进步,这显示了AI可以做的步骤更改。然后,当我们去Arc-agi-2时,我们就人类可以做什么,而人工智能无法做到。每个任务都需要更多的计划。因此,人类没有在五秒钟内解决,而是能够在一两分钟内完成。有更多复杂的规则,网格更大,因此您必须更加精确地答案,但是它或多或少地相同。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。新格式实际上将是互动的。因此,更多地将其视为代理基准。
与以前的测试相比,ARC-AGI-3测试剂将如何不同?
如果您考虑日常生活,那么我们很少有无国籍的决定。当我说无国籍时,我的意思是一个问题和答案。目前,所有基准分析或多或少都是无状态的基准测试。如果您向语言模型提出问题,它会给您一个答案。您无法使用无状态基准测试很多。您无法测试计划。您无法测试探索。您无法测试有关环境或随之而来的目标的直觉。因此,我们制作了100场新型视频游戏,我们将用来测试人类,以确保人类可以做到这一点,因为这是我们基准的基础。然后,我们将把AIS放入这些视频游戏中,看看他们是否可以理解自己从未见过的这种环境。迄今为止,通过我们的内部测试,我们没有一个AI能够击败其中一个游戏的一个水平。
您可以在这里描述视频游戏吗?
每个环境(或视频游戏)都是一个二维,基于像素的拼图。这些游戏的结构是不同的水平,每个游戏都旨在向玩家(人类或AI)传授特定的迷你技能。要成功完成一个级别,玩家必须通过执行计划的动作序列来展示该技能的掌握。
使用视频游戏测试AGI如何不同于以前使用视频游戏测试AI系统的方式?
在AI研究中,视频游戏长期以来一直被用作基准,而Atari Games是一个流行的例子。但是传统的视频游戏基准面临几个局限性。受欢迎的游戏拥有广泛的培训数据,缺乏标准化的性能评估指标,并允许涉及数十亿个模拟的蛮力方法。此外,开发人员建立AI代理通常对这些游戏的事先了解,从而将自己的见解嵌入到解决方案中。