Nvidia 的 Jensen Huang 表示“我们已经实现了 AGI”。但没有人能够就 AGI 的含义达成一致。|财富
作者:Jeremy Kahn
上周,英伟达首席执行官黄仁勋 (Jensen Huang) 成为头条新闻告诉播客莱克斯·弗里德曼 (Lex Fridman) 表示,AGI(通用人工智能)已经实现。
AGI长期以来一直是许多人工智能研究人员的终极目标。尽管该术语没有普遍接受的定义,但情况确实如此。它通常意味着人工智能与人类一样聪明,但对于如何定义和衡量“智力”存在着激烈的争论。
在这种情况下,弗里德曼向黄提出了一个非常不寻常的 AGI 指标:人工智能能否启动并发展一项技术业务,使其价值达到 10 亿美元?弗里德曼询问黄仁勋是否认为按照这个定义的通用人工智能可以在未来五到二十年内实现。黄说他认为没有必要花那么多时间。——我认为是现在。我认为我们已经实现了通用人工智能,”他说。然后他进行了对冲,指出该公司不一定必须这样做留下来那个有价值的。“你说了十亿,”黄告诉弗里德曼,“但你并没有说永远。”
很少有人工智能研究人员同意弗里德曼向黄提出的 AGI 定义,该定义更具体(一家价值 10 亿美元的公司),但也比大多数 AGI 定义更狭窄(这往往是指匹配广泛的人类认知技能,并非建立成功的企业可能需要所有这些技能)。但人工智能研究人员对于更好的定义应该是什么也存在分歧。尽管市场总估值超过 1 万亿美元的几家领先人工智能公司表示 AGI 是他们竞相追求的目标,但这个术语仍然顽固地不明确。一些计算机科学家完全避免使用这个术语,因为他们说它永远是未定义和不可测量的。其他人则表示,科技公司喜欢使用这个术语的原因完全是愤世嫉俗的——正是因为它的定义不明确,公司很容易通过声称在实现传说中的里程碑方面取得了重大进展来进行炒作。
黄仁勋关于 AGI 言论的热议只会凸显人工智能热潮核心的这一困境。
尝试测量 AGI
事实上,就在弗里德曼放弃播客的前几天,研究人员谷歌DeepMind – 包括深度思维联合创始人 Shane Legg 在 2000 年代初首次帮助普及了 AGI 一词,他发表了一篇新的研究论文,提出了一种更科学的方法来定义和评估 AI 模型是否实现了通用智能。纸,“衡量 AGI 的进展:认知框架,”借鉴了几十年来心理学、神经科学和认知科学的研究成果,构建了作者所说的“认知分类法”。
该分类法确定了 10 种关键认知能力,包括感知、推理、记忆、学习、注意力和社会认知,研究人员认为这些能力对于一般智力至关重要。然后,该框架建议评估所有 10 个院系的人工智能系统,并将其性能与至少具有中等教育水平的成年人的代表性样本进行比较。
该论文的主要观点是,当今的人工智能模型具有“参差不齐”的认知特征:它们可能在某些领域超过了大多数人类,例如数学或事实记忆,而在其他领域却远远落后于普通人,例如从经验中学习、维持长期记忆或理解社会情境。谷歌 DeepMind 研究人员表示,人工智能模型至少需要在所有 10 个领域达到人类平均表现才能被视为 AGI。
研究人员还宣布在流行的机器学习竞赛网站 Kaggle 上举办一项奖金为 20 万美元的竞赛,邀请外部研究人员帮助对现有基准测试最弱的五种认知能力进行评估。
DeepMind 的论文只是最近一系列旨在更严格地衡量智力的尝试中的最新一篇。
去年,人工智能安全中心 Dan Hendrycks 领导的团队(其中包括深度学习先驱 Yoshua Bengio)发表了他们自己的 AGI 框架和指标。该论文还将一般智力分为 10 个独立的认知领域,借鉴了三位心理学家(雷蒙德·卡特尔、约翰·霍恩和约翰·卡罗尔)开发的人类智力框架,这是最经经验验证的人类认知模型。它为现有人工智能模型生成了“AGI 分数”;OpenAI 于 2025 年 8 月发布的 GPT-5 是测试中功能最强大的系统,得分仅为 57%,在所有认知维度上都远远低于受过良好教育的成年人。
最雄心勃勃的实际尝试之一是强调当今人工智能系统仍然无法做到的事情ARC-AGI 基准测试,由著名机器学习研究员 François Chollet 创建。Chollet 的核心论点是,衡量智力的标准不应该是系统已知的知识,而是系统学习新技能的效率。
ARC-AGI 基准测试包括视觉拼图任务涉及彩色细胞网格。每个任务都会展示一些根据隐藏规则将输入网格转换为输出网格的示例,考生必须找出该规则并将其应用于新的输入。对于人类来说,掌握该模式通常需要几秒钟的时间。对于前沿人工智能模型来说,这些难题仍然出人意料地困难,因为它们需要灵活、抽象的推理——发现对称性、理解空间关系、从少数例子中推断规则——而当前的系统很难做到这一点。
本月,Chollet 和他的合作者推出了ARC-AGI-3,最新且要求最高的基准测试版本。与呈现静态谜题的早期版本不同,ARC-AGI-3 是交互式的:人工智能代理必须探索新环境、动态获取目标、构建适应性强的世界模型,并通过多个步骤持续学习——这些能力对人类来说是天生的,但仍处于人工智能研究的前沿。
总而言之,这些新基准代表了人工智能研究界越来越多的努力,用更接近科学测量的东西来取代 AGI 的模糊定义。但正如这些研究人员首先承认的那样,定义智能的困难与思维研究本身一样古老,并且从人工智能这个领域诞生之初就一直困扰着它。
定义智力
1950 年,在“人工智能”一词被创造之前,当数学家和电气工程师刚刚开始建造第一台现代计算机时,著名的英国数学家和计算机先驱阿兰·图灵就面临着一个事实,即制定智能的定义极其困难。
图灵没有尝试这样做,而是提出了一种他称之为“模仿游戏”的评估,后来被称为图灵测试。它规定,当机器可以通过文本与人进行一般对话时,它应该被认为是智能的,而第二个人类法官在阅读对话时,无法可靠地确定哪个参与者是机器,哪个参与者是人类。从本质上讲,这是一种“当我看到它时就知道它”的情报方法。
但图灵测试很快也被证明存在问题。Eliza 是 20 世纪 60 年代中期在麻省理工学院开发的聊天机器人,旨在模仿心理治疗师。它的大多数响应都遵循硬编码的逻辑规则;Eliza 经常回答用户诸如“你认为这是为什么?”或“告诉我更多”之类的问题,以掩盖其较弱的语言理解能力。然而伊丽莎欺骗了一些人,让他们相信它能理解他们。伊丽莎接近通过图灵测试,尽管在几乎所有其他衡量标准上,它都远不及人类的认知能力。事实上,一个名为“Eugene Goostman”的更复杂的聊天机器人在 2014 年正式通过了现场图灵测试竞赛,同样没有触及大多数人类认知技能。
今天的大型语言模型比 Eliza 的交流要流畅得多,但它们在认知能力的各个方面仍然无法与人类匹敌——它们会产生幻觉,难以进行长期规划,并且无法像人类那样从经验中学习。
与图灵测试相比,“通用人工智能”一词是一个相对较新的术语。它是由当时马里兰大学研究生马克·古布鲁德 (Mark Gubrud) 于 1997 年首次创造的,他在 1997 年在纳米技术会议上发表的一篇论文中使用了这个新词。他用“先进的通用人工智能”这个词来描述人工智能系统,这些系统可以“在复杂性和速度上与人类大脑相媲美或超越,能够利用一般知识获取、操纵和推理,并且基本上可用于需要人类智能的任何操作阶段。”但这篇论文很快就消失得无影无踪。
然后,在 2000 年代初,Legg(后来共同创立了 DeepMind)独立创造了同一个术语。他正在与计算机科学家 Ben Goertzel、Cassio Pennachin 等人合作编写一本关于创建能够解决各种问题和任务的机器学习系统的潜在方法的书。他们想要一个术语来区分这些系统的野心与当时流行的狭隘机器学习算法,这些算法一旦经过训练,只能解决单一的、狭隘的任务。戈策尔考虑将这种更通用的人工智能称为“真正的人工智能”或“强人工智能”,但莱格建议改为“通用人工智能”,他不知道古布鲁德早期的用法。他还建议将该术语缩写为AGI。这一次,AGI起飞了。
在 Goertzel 的书中,他将 AGI 定义为“具有一定程度的自我理解和自主控制能力的人工智能系统,有能力在各种环境下解决各种复杂问题,并学会解决在创建时不知道的新问题。”
这个定义对于将一般人工智能系统的工作与狭隘的机器学习系统分开很有用,但它也包含相当多无益的模糊性:“合理程度”是什么意思?哪些复杂问题在哪些情况下计入标准?
莱格后来通过提供一个更随意的 AGI 定义来加剧这种歧义,该定义在某些方面更狭窄(例如,它没有谈论自我理解),但同样模糊。例如,他告诉大西洋月刊去年,尼克·汤普森(Nick Thompson)将 AGI 定义为一种人工智能体,它可以完成人们通常可以做的各种认知事情。我认为这是自然的最低标准。但哪些事情呢?还有哪些人呢?
类似的问题一直围绕着 AGI。这个术语是否意味着与普通人的认知能力相匹配的软件?还是智商最高的人类的能力?或者每个知识领域的最佳专家?例如,Hendrycks 和 Bengio 的研究论文将 AGI 定义为匹配或超过“受过良好教育的成年人的认知多样性和熟练程度”。DeepMind 论文建议针对成年人的代表性样本进行衡量。其他人则使用不太精确的公式。
更令人困惑的是,在公众讨论中,AGI 经常与人工智能研究人员称之为“人工超级智能”或 ASI 的概念混为一谈,即比所有人类加起来还要聪明的人工智能。大多数人工智能研究人员认为 AGI 和 ASI 是独立的里程碑,并且复杂程度截然不同,但在大众的想象中,两者经常被模糊在一起。
AGI 成为企业目标和营销口号
如果说关于定义 AGI 的学术争论已经持续了很长时间并且细致入微,那么企业界所引入的定义,说得客气一点,是很特殊的。DeepMind 成为第一家将追求“通用人工智能”作为商业目标的公司。2010 年,莱格与德米斯·哈萨比斯 (Demis Hassabis) 和穆斯塔法·苏莱曼 (Mustafa Suleyman) 共同创立公司时,将这句话放在了公司第一个商业计划的首页。
五年后,OpenAI 也将构建 AGI 作为明确的使命。其 2015 年最初的创立原则称,新实验室(当时是一个非营利性实验室)致力于确保“通用人工智能造福全人类。”三年后,当该实验室首次成立营利性部门时,它发布了一份章程,将 AGI 定义为“在最具经济价值的工作中表现优于人类的高度自治系统。”现在,AGI 首次是通过财务指标来衡量的,而不仅仅是认知指标。
事实证明,OpenAI 很快就会秘密为 AGI 设定一个非常具体的财务门槛。当微软2019 年,这家科技巨头首次向 OpenAI 的营利性部门投资 10 亿美元,与这家人工智能初创公司达成的协议使其成为 OpenAI 实验室开发的任何人工智能模型的首选商业化合作伙伴,但最重要的是不包括 AGI。当时有报道称,何时实现 AGI 将由 OpenAI 非营利委员会自行决定。
但关键的是,根据报告2024 年,当微软同意在 2023 年向 OpenAI 追加投资 100 亿美元时,其与 OpenAI 的合同中包含一项条款,将 AGI 定义为一项可以产生至少 1000 亿美元利润的技术。
OpenAI 还远未达到这个标准。公司拥有据报道告诉投资者,该公司去年的收入为 130 亿美元,但仍消耗了 80 亿美元的现金。预计到 2030 年才能实现收支平衡。
尽管远远低于与微软合同中 AGI 的财务门槛,但 OpenAI 首席执行官 Sam Altman 经常发表声明,表明 OpenAI 已接近实现按照其他基准衡量的人工智能里程碑。Altman 在 2025 年 1 月在他的个人博客上发表的一篇题为“反思”的帖子中写道,OpenAI“现在相信我们知道如何构建我们传统上理解的 AGI”,并且该公司开始将其目标转向超级智能。在随后题为“三个观察”的文章中,他写道,指向通用人工智能的系统正在“进入视野”。然而,在其他时候,奥特曼似乎也承认通用人工智能作为一个概念的弱点。大约在发表“反思”博客文章的同时,奥特曼告诉彭博新闻社采访者,通用人工智能“已经成为一个非常草率的术语。”
当 OpenAI 符合公司的营销目的时,微软还选择忽略 AGI 的财务定义。2023 年 3 月,微软研究人员团队发表了一篇关于 GPT-4 的 154 页论文,标题颇具争议性,名为“通用人工智能的火花”,认为该模型可以“合理地被视为 AGI 的早期(但仍不完整)版本”。
该论文因夸大 GPT-4 用于商业目的的能力而受到广泛批评。就连 Altman 也与自己保持了距离,称 GPT-4“仍然有缺陷,仍然有限。”Google DeepMind 和 Hendrycks-Bengio 团队的新研究和基准在建立 AGI 衡量标准方面取得了一些进展,这一衡量标准植根于数十年来对人类智能的研究。显而易见的是,当今最好的人工智能模型仍然无法达到人类认知能力的广度和深度。
Nvidia 首席执行官黄仁勋知道这一点,就像他毫无疑问完全意识到他说 AGI 已经实现一样会引起社交媒体的狂热和头条新闻。我们知道黄知道这一点,因为后来在同一个播客中,他说“实现了 AGI”,他还表示,流行的 OpenClaw AI 代理可以由 Anthropic 和 OpenAI 等公司的任何顶级 AI 模型提供支持,但永远无法复制 Nvidia。“现在,100,000 名代理商创建 Nvidia 的可能性为零,”他说。
黄仁勋不仅是英伟达的首席执行官。他也是该公司的创始人,经营该公司 33 年,曾一度濒临破产,如今该公司的价值超过 4 万亿美元,成为全球最有价值的公司之一。从很多方面来说,黄是一位非凡的天才。但他也是一个非常人性化的人。因此,也许我们需要一个新标准,不是 AGI,而是 AJI——詹森人工智能。当人工智能达到这一水平时,社交媒体上那些气喘吁吁地放大黄的 AGI 主张的人工智能支持者将真正感到兴奋。