OC

Knowledge OS
鹦鹉螺口语
人工智能繁荣的游戏计划
2026-03-30 22:27:37 · 英文原文

人工智能繁荣的游戏计划

作者:Matteo Wong

托雷·格雷佩尔可能是第一个被超级智能打败的人类。2015 年,在他担任 Google DeepMind 研究员的第一天,他面临着与 AlphaGo 的最早版本对弈的挑战——这是 DeepMind 开发的计算机程序,事实证明,它在中国古代围棋中非常有效。围棋(或围棋,在西方众所周知)它改变了人类下棋的方式,然后颠覆了人工智能本身的领域。

当格雷佩尔面对它时,正如他对我所说的那样,AlphaGo 只是一个“婴儿”项目,而他是一位颇有成就的业余棋手。但这仍然让他失望。第二年,AlphaGo(现已完全成熟)击败了多位人类冠军,最终以 4 比 1 的比分击败了被广泛认为是世界上最好棋手的李世石。本月是该胜利十周年。

几十年来,开发一个能够以精英水平下棋的程序一直是计算机科学中一个臭名昭著的问题。许多人认为这是无法解决的——比开发类似的国际象棋程序要困难得多,在国际象棋中,超级计算机深蓝在 1997 年击败了世界冠军。在围棋中,两名棋手轮流在 19×19 的网格上放置棋子,他们的动作相对不受限制。在国际象棋中,网格要小得多,车只能水平移动,象只能对角移动,但围棋棋子可以放置在任何开放空间上。可能的围棋位置数量如此之多,以至于无法轻易用言语表达;它比可观测宇宙中的原子数量还要多,比可能的国际象棋游戏数量还要高几个数量级。如今,让算法在这款棋盘游戏中表现出色的技术框架和方法已经相当直接地转化为可以编写高级代码、帮助解决数学中的开放问题以及从头开始复制科学发现的机器人。

生成式人工智能生活在 AlphaGo 的阴影之下。除了实际模型之外,“概念性事物还从整个 AlphaGo 体验中浮现出来,基本上进入了人工智能词汇,”谷歌 DeepMind 科学与战略计划副总裁 Pushmeet Kohli 告诉我。在很多方面,围棋和国际象棋为理解人工智能热潮如何展开提供了理想的模板,并为它可能造成的后果提供了指南。

DeepMind 的创新本质上是将两种算法配对:一个人工智能模型用于提出走法,另一个模型用于判断一个走法是否良好,从而使系统能够将计算资源用于规划最有可能取得胜利的走法序列。然后 AlphaGo 自己对弈了数千次,通过称为强化学习的训练过程从每一次错误中改进。当今的前沿人工智能实验室面临着类似的问题:诸如 ChatGPT 之类的大型语言模型可以输出清晰的句子和段落,但当它们面临计算机科学、物理和其他领域的挑战性任务时,需要人类真正认为,聊天机器人一直在黑暗中跌跌撞撞。随着 2024 年底的出现,这种情况开始发生变化所谓的推理模型,这种方法现在是 OpenAI、Google DeepMind 和 Anthropic 的所有顶级机器人的基础。正如 OpenAI 研究员 Noam Brown 最近所说,这些推理模型背后的想法与 AlphaGo 惊人地相似。把它

聊天机器人推理背后的直觉是让人工智能模型使用某种草稿本逐步制定解决方案,然后评估沿途的步骤以根据需要改变路线或重新开始——非常类似于 AlphaGo 使用的两步方法。这些推理聊天机器人的训练方法也相同:强化学习。算法可以玩很多围棋游戏或尝试解决很多困难的数学问题,然后在失败或犯错时从错误中学习。当今最好的人工智能模型在某种程度上可以追溯到 AlphaGo 的工作,”Graepel 说。

也许 AlphaGo 和聊天机器人推理突破之间最重要的见解是对人工智能行业中心教条“规模法则”的扭曲。传统上,人工智能公司通过使用更多数据和更强的计算能力来训练大型语言模型来改进它们。就 AlphaGo 和推理模型而言,研究人员意识到他们可以扩展另一个维度:让程序在任务上投入更多时间和计算能力,类似于人类通常需要更多时间来解决更困难的问题。对于机器人来说,这意味着计划更多、更长的动作序列,或者使用更多的单词来“推理”完成一项艰巨的编码任务。但这并不能保证。“如果你给他们更多的时间,他们可能会花更多的时间来感到困惑,”科利说。

AlphaGo 成功后,DeepMind 制作了一个名为 AlphaZero 的后继程序。AlphaGo 最初以多场人类围棋比赛作为基准,而 AlphaZero 则在许多游戏(围棋、国际象棋等)中占据主导地位,纯粹是通过自己下棋,先验知识为零,并从每场比赛中学习。人工智能模型本质上非常快速地自学,在多种游戏中超越任何人类的能力,这可能表明当今的聊天机器人即将取得快速进步。按照这种逻辑,模型基本上可以找到改进自身的方法。但 AlphaGo 和 AlphaZero 的成功更有可能预示着前方的障碍。AlphaGo 中最重要的要素是简单性,人们可以通过它来衡量成功(输赢),从而给机器反馈以进行改进。

对于棋盘游戏,“我们总是在已知游戏规则的特定环境中进行操作,”科利说。“当今的系统预计将在更通用的环境中运行。”推理模型主要在仍然有相对明确的评估标准的领域取得了成功:例如,人工智能编写的程序是否按预期工作,或者人工智能编写的证明是否成立。向机器灌输任何更通用的智能概念都比征服围棋更具挑战性。

DeepMind 已经能够设计对更抽象想法的评估,例如通过编排多个人工智能代理来充当虚拟“科学家”团队这将对生物学问题的假设进行排名。但即使是这个系统,也是在相对有限的生物推理和文学领域内运作的。任何实验室都不可能想出一种单一的方法来评估可用于训练 AlphaGo 风格的机器人的“一般智力”,更不用说像赢得或输掉棋盘游戏那样简单的方法了。

尽管如此,AlphaGo 方法在许多科学领域为人工智能模型带来的进步令人印象深刻,以至于在人工智能征服人类最难的棋盘游戏十年后,整个国家现在都在疯狂地思考人工智能是否会首先彻底改变经济,然后彻底颠覆人类的目的。

国际象棋和围棋可能再次提供指导。通过自我对弈的提高,AlphaGo 和 AlphaZero 不仅发展出了超人的能力,而且还发展出了非人的风格,使用了人类以前从未考虑过的战术和策略。这些人工智能策略并没有破坏人类对国际象棋和围棋的追求;他们重新点燃人类新浪潮创造力和策略。对于当今更广泛有用的人工智能系统来说,最乐观的类比是,它们也不会完全替代人类,而是将充当一种互补智力。生物学家,数学家计算机科学家已经在寻找方法,使当今的人工智能模型不仅能加快工作速度,还能从质上改变人类可以提出的问题类型和我们可以做出的发现。

当然,生成式人工智能的商业主张恰恰相反:ChatGPT 和 Claude Code 等产品可以使大量白领工作实现自动化,帮助学生通过作弊完成学业,并让人类在大多数情况下无需思考地生活。或许,首席高管,就像人工智能研究人员一样,可以从围棋和国际象棋中吸取教训。与任何运动一样,国际象棋和围棋之所以有价值,是因为人类的斗争和故事情节、冠军的产生和推翻,以及人们注定不完美但总是努力变得更好这一事实。下棋人工智能模型并没有使人类国际象棋大师自动化或破坏这项运动和消遣,而是帮助国际象棋业务蓬勃发展。

同样,员工、经理、学生、教授——实际上我们所有人——总是在失败中学习,或者至少我们应该如此。这是有用且值得保存的简单的经济术语。没有人在某些方面表现得相当糟糕,就不可能在任何事情上成为世界一流,而让能力不如机器人的新手培养技能是获得具有人类判断力和超越任何人工智能的能力的专家的唯一途径。但比经济原理更重要的是存在主义原理:成长或帮助他人实现这一目标是一件美好的事情。有些人可能称之为人性。

关于《人工智能繁荣的游戏计划》的评论

暂无评论

发表评论

摘要

2015 年,托雷·格雷佩尔 (Thore Graepel) 在加入 Google DeepMind 的第一天就输给了 DeepMind 开发的程序 AlphaGo,这是超级智能在围棋比赛中首次击败人类。次年,AlphaGo 击败了当时被认为是世界上最好棋手的李世石。这一事件标志着人工智能的转折点,特别是在像 ChatGPT 这样的生成模型中。AlphaGo 使用的方法——通过强化学习配对算法来提议和判断棋步——启发了大型语言系统中当前的推理模型。然而,尽管这些进步意义重大,但灌输通用智能的挑战仍然艰巨。国际象棋和围棋提供了关于人工智能如何补充人类努力而不是完全取代人类的见解,有可能在不完全自动化人类角色的情况下彻底改变科学发现和经济实践。