Franã§oisChollet已为机器人构建了最终测试。

由Elevenlabs和音频的新闻(NOA)使用AI叙述。听NOA应用程序上的更多故事。
d沮丧,山姆·奥特曼(Sam Altman)和弗兰(Franã§oisChollet)共享同样的梦想。他们想建立AI模型,以实现人工通用情报,或匹配或超过人类思想的能力。这两个男人之间的区别在于,阿尔特曼(Altman)建议他的公司Openai实际上已经建立了这项技术。Chollet是法国计算机科学家,也是该行业最敏锐的怀疑论者之一说这个想法是绝对的小丑鞋。
当我今年早些时候与他交谈时,Chollet告诉我,AI公司长期以来一直在智力上暗示他们的机器正走上了一种最高知识的道路。在这一点上,这些主张主要基于通过特定测试的计划(例如LSAT,高级放置生物学,甚至是入门侍酒师考试)。聊天机器人可能会令人印象深刻。但是,在Chollet的估计中,它们并不是真正的聪明人。
像Altman和其他Tech Barons一样,Chollet设想了可以解决任何可以想象的问题的AI模型:疾病,气候变化,贫困,星际旅行。需要一个智能的机器人做你的工作。但是,要使该技术达到类似于爱因斯坦的研究人员的一小部分,就像Chollet向我所说的那样,AI模型必须超越模仿基本任务,甚至汇集复杂的研究报告,并表现出一些独创性。
Chollet不仅仅是批评家,也不是一个毫不妥协的。他在AI开发方面拥有丰富的经验,并创建了一项现在主要的测试,以评估机器是否可以做这种思维。多年来,他一直为深度学习领域做出了重大研究,包括在Google,从2015年到今年11月,他担任软件工程师。他希望生成的AI具有革命性,但担心该行业陷入了困境。2019年,Chollet为人工通用智能创建了抽象和推理语料库,或者ARC-AGI旨在展示AI模型记忆的答案与人们所拥有的流动智能之间的鸿沟。从认知科学绘画描述诸如快速获取技能并从第一原则中解决陌生问题的能力之类的智能,而不仅仅是记住大量培训数据和反流信息。(去年,他启动了ARC奖,这是一项以100万美元的奖金击败基准的比赛。)
您,一个人,可能会通过这项考试。但是多年来,聊天机器人度过了痛苦的时光。尽管以前从未遇到过Arc-agi,但大多数人都得到了分数大约60%至70%。GPT-3是Chatgpt的计划,传奇,现实持续的机器人,得分为零。直到最近,机器人才开始赶上。
hOW可以如此强大的工具这么长时间的测试使测试失败了吗?这就是Chollet对情报的定义的来源。对他来说,聊天机器人已经分析了数十亿个SAT风格的问题,法律摘要和代码行,并不是很明智,这对SAT,法律学院的考试,高级编码问题,无论如何。同时,一个孩子在学习如何倍增和分裂后发现棘手的单词问题是聪明的。Arc-Agi很简单,但是它需要一种敏锐的感知感,从某种意义上说是判断。
它由一系列不完整的网格组成,根据他们从几个示例中推论的规则,测试师必须对其进行着色;例如,一个人可能会看到一系列图像,并观察到蓝色瓷砖始终被橙色瓷砖包围,然后相应地完成下一张图片。与油漆数字没有什么不同。
该测试长期以来对主要的AI公司似乎很棘手。GPT-4,openai吹牛在2023年具有先进的推理能力,没有比其前身获得的零百分比要好得多。一年后,GPT-4O,这是初创企业销售作为展示文本,推理和编码智能,仅实现了5%。Gemini 1.5和Claude 3.7,Google和Anthropic的旗舰模型,成就了分别为5%和14%。这些模型可能在一些难题上很幸运,但是对于Chollet而言,它们并没有表现出抽象的推理。如果您像整个GPT系列那样不聪明,他告诉我,您的得分基本上是零。
CHOLLET将网格设计为高度独特,因此类似的难题或相关信息可能不会无意中包含在模型的培训数据中常见的AI基准的问题。测试者必须在每个拼图中重新开始,并应用计数和几何形状的基本概念。相比之下,大多数其他AI评估和标准化测试是粗略的,它们旨在评估思维的独特,定性的方面。但是,Arc-Agi检查了您知道的概念并将其应用于新情况的能力。
为了提高其性能,硅谷需要改变其方法。用更多的计算能力和更多的培训数据来扩展AI构建更大的模型显然没有帮助。Openai首次以一种型号进行了市场,甚至可以接近正确的解决问题。该公司宣布了所谓的推理模型,O1,今年秋天,阿尔特曼后来称为Openai的首席研究官Mark Chen告诉我,该计划代表了一个新的Paradig。该模型旨在检查和修改其方法,并花更多的时间在更艰难的人身上,就像人类的力量一样。O1的早期版本在Arc-Agi上得分18%,这是一个明确的进步,但仍低于人类绩效。后来的O1迭代率达到32%。乔勒(Chollet)在9月告诉我,Openai距离流体智能还有很长的路要走。
那即将改变。在12月下旬,Openai预览了一个更高级的推理模型O3,在Arc-Agi上获得了87%的震惊,这使其成为第一个与测试中人类表现相匹配的AI,并且是迄今为止最出色的模型。Chollet描述该计划是一个真正的突破。O3似乎能够即时结合不同的策略,这正是成功实现Arc-Agi所需的适应和实验。
Chen在一月份告诉我。陈称赞了弧线的天才,称其对记忆的抵制答案是一种很好的测试概括方式,我们认为这与推理密切相关。基准
Chollet在他的角度告诉我,他觉得自己很有证明。AI模型不足以记住信息:它们必须推理和适应。公司说,他们对基准没有兴趣,因为他们对此不利。”当他们擅长的那一刻,他们会喜欢的。m
任何AI支持者很快宣布胜利当O3通过Chollet的测试时。AGI在2024年实现了一家初创公司创始人写在X. Altman上写在一篇博客文章中,“我们现在有信心我们知道如何建立我们的传统上理解的AGI。从那时起,Google,Anthropic,Xai和DeepSeek启动了自己的推理模型,并且Anthropic,Dario Amodei的首席执行官,Dario Amodei(Dario Amodei)已成为说这种人工通用情报可能会在几年内到达。
但是,曾经怀疑论者的Chollet不卖出。当然,Agi可能会越来越近,他告诉我。但是,只有从以前却遥不可及的意义上。正如这障碍所清除一样,他决定提出另一个障碍。
上周,ARC奖团队发布了一个更新的测试,称为Arc-Agi-2,并且似乎已将AIS送回了绘图板。完整的O3型号尚未进行测试,但是O1的版本从原始难题的32%下降到新版本的3%,而目前可向公众使用的Mini版O3从约30%降至2%以下。(OpenAI发言人拒绝透露该公司是否计划使用O3运行基准。)OpenAI,Anthropic和Google的其他旗舰车型已达到约1%,即使不是较低。人类测试人员平均约60%。
Chollet上个月告诉我,如果Arc-Agi-1是模型是否具有任何流体智能的二进制测试,第二个版本旨在衡量AI的精明程度。自2022年以来,Chollet一直在设计这些新难题。从本质上讲,它们是原始版本的更难版本。ARC-AGI的许多答案立即被人类识别,而在Arc-Agi-2上,人们平均花了五分钟来找到解决方案。Chollet认为,在Arc-Agi-2上变得更好的方法是更聪明,不要学习更艰苦的挑战,这可能有助于将AI行业推向新的突破。他正在将ARC奖转变为一个致力于设计新基准以指导技术进步的非营利组织,并且已经在ARC-AGI-3上致力于。
推理模型采用奇怪和不人道的方法来解决这些网格,而思考时间的增加将以巨大的代价。为了在原始的ARC-AGI测试中达到87%,每个难题大约花费了大约14分钟,并且根据我的计算,可能需要数十万美元的计算和电力;在选择最终提交之前,该机器人在每个网格中提出了1000多个可能的答案。AI研究人员米切尔(Mitchell)表示,这种方法提出了一定程度的反复试验,而不是有效的,抽象的推理。Chollet认为这种效率低下是致命的缺陷,但公司AI实验室却没有。如果聊天机器人以这种方式实现流体智能,那并不是因为技术近似人的思想:您可以将更多的脑细胞塞入一个人的头骨中,但是您可以给聊天机器人更多的计算机芯片。
同时,Openai正在转向反映实用性的评估,” Chen告诉我,例如对AI模型在网络上进行导航和采取行动的能力的测试,这将帮助公司变得更好,尽管不一定更聪明,因此产品。OpenAI本身,不是一些第三方测试,最终将决定其产品何时有用,如何为其定价(根据一份报告,可能每年20,000美元的博士学位),以及它们是否实现了AGI。确实,该公司可能已经拥有自己的关键AGI指标:信息报告去年年底,微软和Openai已达成一项将AGI定义为能够产生大约1000亿美元利润的软件的协议。根据向投资者分发的OpenAI文件,该决定是由Openai董事会合理的酌处权。”
问题是:没有人同意被衡量的内容,或者为什么。如果AI程序在Chollet的测试中很糟糕,也许只是方法他们很难可视化彩色网格,而不是更深的东西。而且从未解决Arc-Agi-2的机器人有一天可以产生1000亿美元的利润。任何特定的LSAT或ARC-AGI或编码难题都会与一般智能的概念矛盾;术语的定义特征可能是其不确定性。
也许更深入的问题是,人类的智力知之甚少,并且衡量它是一项臭名昭著而偏见的任务。人们有针对不同事物的诀窍,或者可能会得出相同的结果 - 数学问题的答案,即通过截然不同的路线来解决Arc-Agi网格的解决方案。在Arc-Agi-2上得分30%的人绝不比获得90%的人不如90%。这些不同的路线和思想的碰撞是引发辩论,创造力和美丽的原因。意图,情感和生活经历驱使人们与任何逻辑推理一样多。
换句话说,人类的认知多样性是一个光荣的混乱。您甚至如何开始构建它的人造版本?当这种多样性已经如此丰富时,您真的想要吗?
关于作者
Matteo Wong是在大西洋。