人工智能在真实性和正确性方面存在很大问题,而人类思维似乎是该问题的重要组成部分。新一代人工智能现在开始采用更具实验性的方法,可以使机器学习远远超过人类。
还记得 Deepmind 的 AlphaGo 吗?它代表了人工智能开发的根本性突破,因为它是第一批不接受人类指令、不阅读规则的游戏人工智能之一。
相反,它使用了一种称为自我对弈强化学习的技术来建立自己对游戏的理解。在数百万甚至数十亿个虚拟游戏中进行纯粹的试验和错误,开始或多或少随机地拉动任何可用的杠杆,并尝试从结果中学习。
自 2014 年该项目启动后的两年内,AlphaGo 就以 5-0 击败了欧洲围棋冠军,并于 2017 年击败了世界排名第一的人类棋手。
此时,Deepmind 在国际象棋领域推出了类似的 AlphaZero 模型,其中像深蓝这样的模型,经过人类思维、知识和规则集的训练,自 90 年代以来一直在击败人类特级大师。AlphaZero 与卫冕 AI 冠军 Stockfish 进行了 100 场比赛,获胜 28 场,其余成绩平局。Deepmind 放弃了“模仿人类是获得良好结果的最佳方式”这一理念,开始主宰这些游戏以及 shoji、Dota 2、Starcraft II 和许多其他游戏。
与我们相比,这些电子思维受到不同的限制,并具有不同的才能,因此可以自由地按照自己的方式与事物互动,发挥自己的认知优势,并建立自己对有效方法的基础理解以及什么不是。
AlphaZero 不像 Magnus Carlssen 那样懂国际象棋。人们从未听说过后弃兵,也从未研究过伟大的大师。它只是下了一大堆棋,并用一种它自己创造的非人性和难以理解的语言,建立了自己对胜利和失败的冷酷、硬逻辑的理解。
当模型在思维链中不再说英语时,你就可以看出强化学习已经正确完成了
Andrej Karpathy (@karpathy) 2024 年 9 月 16 日
因此,它比人类训练的任何模型都要好得多,这是绝对可以肯定的:如果有先进的强化学习代理,任何人类和任何基于人类思维训练的模型都不会再在国际象棋游戏中有机会在另一边。
据那些比地球上其他人更了解真相的人说,最新、最棒的 ChatGPT 版本刚刚开始发生类似的事情。
ChatGPT 和其他大型语言模型 (LLM) 人工智能,就像那些早期的国际象棋人工智能一样,已经接受了尽可能多的人类可用知识的训练:我们物种的全部书面输出,给予或接受。
他们已经变得非常非常优秀。所有这些关于他们是否会实现通用人工智能的争论……天哪,你能想象一个可以在能力上与 GPT-4o 竞争的人类吗?
但是大语言模型专注于语言,而不是判断事实对错。这就是为什么他们会“产生幻觉”或胡言乱语,用措辞优美的句子向你提供错误的信息,听起来就像新闻主播一样自信。
语言是奇怪的灰色区域的集合,很少有 100% 正确或错误的答案,因此大语言模型通常使用强化学习和人类反馈进行训练。也就是说,人们会选择听起来更接近他们想要的答案的答案。但事实、考试和编码这些东西确实有明确的成功/失败条件;要么你做对了,要么你没有做对。
这就是新的 o1 模型开始脱离人类思维的地方,并开始引入极其有效的 AlphaGo 方法,通过纯粹的试错来追求正确的结果。
在很多方面,o1 与其前身几乎相同,只是 OpenAI 在开始回答提示之前内置了一些“思考时间”。在这段思考时间内,o1 会产生一条“思维链”,在其中思考并推理解决问题的方法。
这就是 o1 中 RL 方法的用武之地,与以前的模型不同,之前的模型更像是世界上最先进的自动完成系统,它真正“关心”它是否得到正确或错误的结果。通过部分训练,该模型可以自由地在其思维推理链中使用随机试错方法来解决问题。
它仍然只有人类生成的推理步骤可供借鉴,但它可以自由地随机应用这些步骤,并就哪些步骤、按什么顺序最有可能得出正确答案得出自己的结论。
从这个意义上说,这是第一个真正开始创造奇怪但超级有效的 AlphaGo 式“理解”问题空间的大语言模型。在它现在超越博士水平能力和知识的领域,它基本上是通过反复试验、在数百万次自我生成的尝试中偶然找到正确答案,并建立自己的理论来实现这一目标的。有用的推理步骤和无用的推理步骤。
因此,在有明确正确和错误答案的主题中,我们现在开始看到这种外星智能用自己的两只脚迈出了我们的第一步。如果游戏世界是现实生活的一个很好的类比,那么朋友们,我们知道事情的发展方向。只要有足够的能量,它就是一位能够永远加速的短跑运动员。
但是 o1 仍然主要接受人类语言的训练。这与真实语言有很大不同,它是对现实的粗略且低分辨率的表示。这么说吧:你可以整天向我描述一块饼干,但我不会尝过。
那么当你停止描述物理世界的真相并让人工智能去吃一些饼干时会发生什么?我们很快就会开始找到答案,因为嵌入机器人身体的人工智能现在开始对物理世界如何运作建立自己的基础理解。
摆脱了牛顿、爱因斯坦和霍金的原始人类思考,具体人工智能将采取一种奇怪的 AlphaGo 式的方法来理解世界。他们会探究现实,观察结果,并用自己的语言建立自己的理论,了解什么有效、什么无效以及原因。
他们不会像人类或动物那样接近现实。他们不会使用像我们这样的科学方法,也不会将事物分成物理和化学等学科,也不会进行帮助人类掌握周围材料、力量和能源并主宰世界的同类实验。
赋予人工智能这样自由学习的能力将会是非常奇怪的。他们会做你能想到的最奇怪的事情,出于只有他们自己知道的原因,在这样做的过程中,他们将创造和发现人类永远无法拼凑在一起的新知识。
摆脱了我们的语言和思维的束缚,他们甚至不会注意到他们何时突破了我们的知识界限,发现了关于宇宙的真理和人类在十亿年内不会偶然发现的新技术。
我们在这里获得了一些缓刑;这不会在几天或几周内发生,就像大语言模型世界中发生的许多事情一样。
现实是我们所知的最高分辨率的系统,也是真理的最终来源。但它的数量非常多,而且处理起来也非常缓慢;与模拟不同,现实要求你以每分钟一分钟的缓慢速度进行操作,并且你只能使用实际建造的身体数量。
因此,试图从基本现实中学习的具体人工智能最初不会像基于语言的祖先那样拥有疯狂的速度优势。但它们仍然比进化快得多,能够在群体学习的合作群体中汇集学习成果。
Tesla、Figure 和 Sanctuary AI 等公司正在积极致力于打造人形机器人,使其达到具有商业用途且与人类劳动力具有成本竞争力的标准。一旦他们实现了这一点——如果他们实现了这一点——他们将能够制造出足够的机器人,开始大规模、快速地对物理世界进行从头到尾、反复试验的理解。
不过,他们需要付费。想想就很有趣,但这些类人生物可能会在工作间隙学会掌握宇宙。
对这些相当深奥和推测性的想法表示歉意,但正如我不断发现自己说的那样,活着真是一个美好的时光!
OpenAI 的 o1 模型可能看起来并不像一个巨大的飞跃,它穿着 GPT 的单调文本服装,看起来就像另一个隐形的终端打字员。但这确实是人工智能发展的一个阶跃变化,也是对这些外星机器最终将如何以各种可以想象的方式超越人类的短暂一瞥。
为了更深入地了解强化学习如何使 o1 成为人工智能发展的阶跃变化,我强烈推荐下面的视频,该视频来自优秀的 AI Expanded 频道。
来源:OpenAI / AI 解释