作者:Michael Timothy Bennett and Elija Perrier
新的人工智能(AI)模型仅具有达到了人类水平的结果在旨在测量一般情报的测试中。
12月20日,Openai S O3系统在Arc-Agi基准,远高于以前的AI最佳分数55%,并且与人类平均得分相当。它在非常困难的数学测试中也得分良好。
建立人工通用情报或AGI是所有主要的AI研究实验室的既定目标。乍一看,Openai似乎至少朝着这一目标迈出了重要一步。
尽管仍然存在怀疑,但许多AI研究人员和开发人员感到有些变化。对于许多人来说,AGI的前景现在似乎比预期的更真实,紧急和更近。他们是对的吗?
要了解O3结果的含义,您需要了解ARC-AGI测试的全部内容。用技术术语来说,这是对AI系统的样本效率的测试。
像chatgpt(GPT-4)这样的AI系统不是很好的样本效率。它是针对数百万人类文本的训练的,构建了概率的规则,即最有可能的单词组合。
结果擅长常见任务。这是不常见的任务,因为它具有较少的有关这些任务的数据(较少的示例)。
在AI系统可以从少量示例中学习并适应更高的样本效率之前,它们将仅用于非常重复的作业以及偶尔失败的工作。
从有限的数据样本中准确解决以前未知或新的问题的能力称为概括能力。它被普遍认为是智力的必要,甚至是基本的要素。
ARC-AGI基准测试使用以下几个网格方形问题进行样品有效适应。AI需要找出将左侧网格转向右侧网格的模式。
每个问题都提供了三个示例可以学习。然后,AI系统需要弄清楚从三个示例到第四个示例的一般规则。
这些很像智商测试有时您可能会在学校记得。
我们不确切地知道Openai的完成情况,但是结果表明O3模型具有高度适应性。从只有几个示例中,它可以找到可以概括的规则。
为了找出模式,我们不应该做出任何不必要的假设,也不应比我们真正必须更具体。在理论,如果您可以确定要执行您想要的最弱的规则,那么您就可以最大程度地适应适应新情况的能力。
最弱的规则是什么意思?技术定义很复杂,但是较弱的规则通常是可以是在简单的语句中描述。
在上面的示例中,该规则的普通英语表达可能是:``具有突出线的任何形状都会移至该线的尽头,掩盖了任何其他形状与之重叠。
尽管我们不知道Openai如何实现了这一结果,但似乎他们不太可能故意优化O3系统以找到薄弱的规则。但是,要成功完成ARC-AGI任务,必须找到它们。
我们确实知道OpenAI是从O3模型的通用版本开始的(与大多数其他模型不同,因为它可以花费更多的时间来思考困难问题),然后专门针对Arc-Agi进行了培训。测试。
法国人工智能研究员Francois Chollet设计了基准,相信O3通过不同的思想链进行搜索,描述了解决任务的步骤。然后,它将根据一些松散定义的规则或启发式方法选择最好的。
这与Google的Alphago系统如何通过不同可能的动作序列搜索以击败世界冠军的方式并不不同。
您可以想到这些思想链,就像适合示例的程序一样。当然,如果就像播放AI一样,那么它需要一个启发式或松散的规则才能决定哪种程序是最好的。
可能会生成数千个看似同样有效的程序。可以选择最弱的或选择最简单的。
但是,如果就像Alphago一样,他们只是让AI创建了一个启发式。这是Alphago的过程。Google训练了一个模型,以将不同的移动序列评为比其他动作序列更好或更糟。
那么问题是,这真的更接近AGI吗?如果这是O3的工作原理,那么基础模型可能不会比以前的模型好得多。
该模型从语言中学到的概念可能不比以前更适合概括。取而代之的是,我们可能只是看到通过训练专门研究该测试的启发式训练的额外步骤发现了一个更普遍的思想链。一如既往的证明将在布丁中。
关于O3的几乎所有内容仍然未知。Openai对一些媒体演讲的披露有限,并对少数研究人员,实验室和AI安全机构进行了早期测试。
真正了解O3的潜力将需要大量工作,包括评估,了解其能力的分布,失败的频率和成功的频率。
当O3最终发行时,我们将对它是否像普通人一样适应能力有了更好的了解。
如果是这样,它可能会产生巨大的,革命性的,经济的影响,并在一个自我完善的加速情报的新时代中引起了人们的影响。我们将需要新的基准来进行AGI本身,并认真考虑应该如何管理它。
如果没有,这仍然是一个令人印象深刻的结果。但是,日常生活将保持不变。