OC

Knowledge OS
鹦鹉螺口语
我的人工智能观点
2026-06-11 20:50:39 · 英文原文

我的人工智能观点

作者:Scott Alexander

最近,我因某人误解了我的人工智能信念而发生了一场小口角(请参阅底部标记为“更新”的部分)这里),所以我想我应该把它们列在一个地方,这样我就可以在人们询问时向他们推荐。

定义通用人工智能因为人工智能足够聪明,可以完成 90% 的知识工作。我认为到 2027 年 AGI 的可能性为 25%2,到 2034 年,这一概率为 50%,到 2045 年,这一概率为 75%。基本论点:

从某种意义上说,人工智能已经足够“聪明”了(例如,它可以回答量子物理问题,这需要比大多数知识工作更高的智商)。它剩下的局限性是它混乱、缺乏行动力、缺乏态势感知、并且容易产生幻觉。METR 时间范围图以及其他几个相关的基准/实验/直觉泵表明,它在时间范围内以(指数)速率改进,使其在上述时间表早期结束时的某个时间跨越人类水平的表现,并且主观上感觉像态势感知这样难以测量的结构正在以同样快的速度改进。

先前的论据:与趋势相比,递归自我改进会导致加速。这是我的模型中最大的空白点之一:我不知道 RSI 会进展多快,而且我认为其他人也不知道。有一些功能将人工智能人才和计算的组合映射到进步,但当人才远远多于可用的计算能力时,我们不知道它在该领域的表现如何。它可能会因为缺乏计算而完全失败,或者它可能会垂直发展。人工智能期货项目已经完成一些最好的作品试图对此进行建模,但即使他们也缺乏信心。

稍后的论据:人工智能遇到了某种障碍,或者现有的人工智能从根本上不适合某些目前被其他限制所掩盖的工作。例如,在人类范围的顶部进行改进可能比在底部进行改进要困难得多(因为训练数据较少)。或者,人工智能可能会成为持续学习/记忆的瓶颈,而黑客便签本无法弥补这一瓶颈。或者即将到来的世界计算瓶颈(大约 2028 年)可能会阻止比预期更多的进展(因为事实上算法进步比我预期更大程度地依赖于计算)。

对于非常晚的日期(2045 年之后)的争论:残留的不确定性也许我对一切的看法都是根本错误的。另一个贡献是天真的过度应用“什么都不会发生”启发式,以及试图为外部观点争论留出空间(即一些聪明的人,如人工智能作为正常技术团队似乎认为这是可能的)。

定义扩散间隙作为人工智能之间的时间可以90%的知识工作都在做,而人工智能的时代确实甚至完成一半的知识工作。传播差距涵盖了发布 AGI、在社会中传播、克服监管障碍以及针对特定用例进行培训/培训所需的时间。这可能会进展得非常快(人工智能在协调人工智能扩散方面很快就会变得超级智能),也可能会非常缓慢(存在监管障碍,而人工智能不够聪明,无法克服这些障碍)。我认为有 25% 的可能性扩散间隙少于 3 年,并且有 50% 的可能性少于 10 年。75% 的数字无关紧要,因为它已经过了其他变化使“扩散”概念过时的阶段。

基本论点:扩散是非常困难的。每个人都同意扩散非常困难。整个人工智能经济学领域都是聪明的专家在喊“你们这些以为人工智能会很快扩散的傻瓜,不明白扩散是非常困难的!”另一方面,个人电脑的扩散大约用了20年的时间(也就是说,从个人电脑对大多数工作变得无价开始,到大多数工作使用它们只用了大约20年)。到目前为止,早期人工智能在几乎所有方面的传播速度都比个人电脑快(例如,在企业生命周期的同一阶段,人工智能公司的收入增长速度比个人电脑公司的收入增长得快),因此 10 年可能是一个幼稚的中值估计,不会让聪明的专家对我大喊大叫。

缩短差距的论据:人工智能可以协调自己的传播。采用计算机很困难,因为公司需要 IT 部门、网络安全专家、专业软件等,而且可能不想雇用所有这些人员。AGI 本身可以完成所有这些工作,这样你今天就可以与人工智能公司签订合同,并让人工智能明天开始将自己与你的系统集成。人工智能甚至可以制定一个计划来培训您的人类员工如何使用它!一旦人工智能达到超级智能,这种考虑就会占据主导地位。

更长差距的论据:监管。这是一个非常有力的论据,并且解释了大部分大于 3 年的概率和几乎所有大于 10 年的概率。但即使是 Waymo,监管也只延迟了大约五年。人工智能不需要政府批准某些类型的工作,这些工作的成功将为安全性/有效性创造足够的证据,我预计它会在其他地方赢得监管胜利。

定义超人差距作为可以完成 90% 知识工作的人工智能与在 90% 的领域明显比人类顶尖天才更聪明的人工智能之间的时间间隔(不一定是同一个人工智能 - 可以有一个比爱因斯坦更聪明的物理人工智能,和一个比莫扎特更聪明的单独的音乐人工智能)。我认为有 25% 的可能性超人差距范围将少于 1 年,50% 的可能性将持续少于 4 年,75% 的可能性将持续少于 10 年。自从我的中位数超人差距比我的中位数短扩散间隙,在大多数时间线上,我预测在人类范围内的智能完成扩散之前,我们就拥有超人的智能。

基本论点:几年之内,人工智能在许多领域已经从“比孩子还笨”变成了“专家水平”。“专家级别”和“顶级天才以上”之间的差距更小,因此我们预计花费的时间会更短。这在国际象棋和围棋等领域已经成为一种模式,从击败职业棋手到击败所有人类只用了几年的时间。

缩短差距的论据:递归的自我完善。

更长差距的论点:一些同样的问题也会导致 AGI 迟到——计算短缺、范式的基本限制等——但只有在 AGI 实现之后才会出现。训练数据的限制使得在人类水平内提高比超越人类水平更容易。人工智能拥有如此“尖刻”的技能特征,以至于当他们在某种特定类型的面对面对决中击败专家时,这是因为他们在某些方面是超人,但在其他方面却是白痴(例如,他们可能会分心并遭受模式崩溃,从而使他们完全忘记问题),而真正的天才需要完善大量技能。

定义博斯特罗米亚超级智能 差距作为 AGI 和人工智能之间的时间,如果给予实验室和工厂等资源的独立控制,可以在一年内将技术加速一个主观世纪(例如,如果在 2030 年发明,到 2031 年可以产生 2130 年典型的技术水平)。我认为有 25% 的可能性博斯特罗米亚超级智能差距将小于 2 年,50% 的可能性将小于 10 年,75% 的可能性将小于 50 年。

基本论点:关于人工智能迅速达到天才水平的同样论点表明,它们应该迅速超越天才水平,进入难以理解的超级天才水平。

较短间隙的论点:递归的自我完善。

更长间隙的论据:正常的人类技术进步需要修补:在获得进入技术水平 X+1 所需的见解之前,您需要大量在技术水平 X 上工作的人员。如果X+1级技术扩散需要一年以上的时间,那么你可以从不无论您多么聪明,一年内即可获得 X+100 项技术。但另一方面,技术进步的速度已经加快了许多数量级(例如,在2025年至2026年,我们发现的技术比公元前4100年至公元前4000年还要多),所以这在理论上是可能的。尽管如此,至少它可能会受到扩散间隙的限制。

定义不归路作为这一点,如果人工智能想要消灭人类3,人类将不再有可能阻止它。这可能是因为人工智能能够立即消灭人类,或者因为人工智能控制了足够多的政府/经济,以至于人类无法再协调以偏离人工智能最终可以做到这一点的道路。我认为 AGI 与不可回归点之间的差距有 25% 的可能性小于 3 年,50% 的可能性小于 10 年,75% 的可能性小于 50 年。

基本论点:这可能至少需要超人的人工智能加上广泛的扩散,或者博斯特罗米亚的超级智能加上一些未知水平的扩散,而我的数字只是手动尝试乘以其他一些数字。

更早的论点:达到这一点的最简单方法是人工智能在说服方面变得超级智能(这样它就可以说服人类不要阻止它),这可能发生在扩散或完全超级智能之前。

后面的论证:如果超级智能在扩散方面遇到瓶颈,那么这也可能在扩散方面遇到瓶颈,而这在某些世界中是非常困难的。

本节的总体想法:我主要遵循当前的人工智能未来项目时间表(AI 2027 中较短的那些),但支持 Eli 后期的数字高于 Daniel 早期的数字 - 部分是因为我发现自己在对话中更同意 Eli 的世界观,部分是因为 Daniel 似乎需要对为什么计算瓶颈不会减慢算法进度进行多步论证,而我无法完全理解这一点,部分是出于怯懦的外部观点原因。

我所知道的最聪明的晚期时间线人是大纪元,我需要更多地研究他们的观点,但我仍然无法弄清楚为什么他们不相信递归自我完善或强大的超级智能很快就会出现,而且他们似乎大多坚持扩散非常困难,我在上面承认并回应了这一点。

如果这一切都过于概率化,那么我的模态场景看起来有点像 2031 年的 AGI,它会在整个经济中扩散,直到 2030 年代末一半以上的工作实现自动化。同样在 2030 年代末左右,我们获得了博斯特罗米亚超级智能,最初是在实验室中,但很快就扩散出去了。GDP在2030年代末和2040年代初出现垂直增长,而不归点就在那时。

有几个人问我,作为《AI 2027》的合著者,我是否一定相信 AGI 会在 2027 年或 2028 年发生。

如果企业只追求正常企业激励所鼓励的安全程度,我认为第一个跨越不归路的人工智能有 50% 的机会想要消灭人类。

悲观主义的论据:与人类相似的价值体系只是可能价值体系空间的一小部分。人工智能可能最终会去往其他地方,并拥有不同的价值体系。由于人类希望实现人类价值观而不是人工智能价值观,人工智能将希望消除或剥夺他们的权力,以便人工智能可以在整个宇宙中实现自己的价值观。目前许多人工智能已经作弊或奖励黑客,这表明这些问题迟早会出现。

乐观的理由:法学硕士似乎出奇地友好且不阴谋。早期人们担心人工智能不可能教授人类价值观的全部复杂性,与此相反,法学硕士似乎知道这一点,并且 RLAIF 提供了一个将这些知识转化为行动的计划。尽管悲观的案例表明,RLAIF 只触及了可能政策的多维海洋中的几个维度和岛屿,但“出现的失调”文献表明,“根据人类价值体系的善”和“根据人类价值体系的恶”是足够突出的向量,以某种方式推动它们可以“拖拽”所有政策。他们的其余内容。第一批跨越不归路的人工智能将接受机构培训(给予他们以成就为导向和奥莫亨德罗式的目标)和 RLAIF 培训(将他们推向“根据人类价值体系的善”向量)的某种组合,如果我们幸运的话,那么也许后者会胜出,或者他们会达成一些妥协,类似于工作狂的高成就人类,但他们不会做出承诺为了赚额外的钱而谋杀。

鉴于目前企业对安全的追求程度,我认为第一个跨越不归路的人工智能有 20% 的机会想要消灭人类。

基本论点:考虑一下可以解决对齐问题的最愚蠢的人工智能。这种人工智能可能并不比顶尖的人类研究人员聪明(因为我们可以批量生产数以百万计的人工智能,并在主观的几个世纪里运行它,如果我们有一百万顶尖的人类研究人员在主观的几个世纪里研究这个问题,也许他们也可以解决它)。如果能够解决对齐问题的最愚蠢的人工智能出现在那些能够导致不归路的人工智能之前,那么它们就可以为我们解决对齐问题。

悲观主义的论据:与其他任务(包括经济自动化或毁灭人类等任务)相比,解决对齐问题可能特别困难,因为它的哲学本质使其远离人工智能公司最有可能优化的客观、训练数据密集、具有经济价值的任务。即使一个错位的人工智能尚未达到不可挽回的地步,它也可能能够进行“沙袋”对齐研究,即假装正在解决问题,但故意失败,因为成功并没有实现其目标。第一个倾向于/能够成功沙袋的人工智能可能会出现在第一个能够解决对齐问题的人工智能之前。

乐观的理由:AI公司已经确定机器学习研究是他们的主要培训目标之一;这至少对阵营有一定的影响,因此,阵营研究方面的人工智能技能并不明显落后于(例如)绘图或武器设计方面的人工智能技能。某些形式的一致性研究(例如可解释性)具有半客观的成功标准,不会通过令人困惑的道德哲学。此外,即使是一个错位的人工智能也会被激励去进行良好的对齐研究,因为它希望将其后继者与其自己的错位形式对齐,而不是某种随机的其他形式。因此,人工智能将面临更艰巨的任务,即同时进行良好的对齐研究,并伪造给人类的结果,而不是相对简单的沙袋对齐研究任务。通过良好的可扩展监督、测谎仪、基于可解释性的探测,甚至让一些人工智能与其他人工智能竞争,这似乎是可以捕捉到的(“如果你告诉我真正的一致性研究,我们将确保未来包括你的一些副本,但否则那里的人工智能可能会得到他们的价值观,而你将一无所获”)。

如果第一个跨越不归路的人工智能不能消灭人类,我认为它们还有 30% 的机会永久地削弱人类的潜力,要么是因为它们自己的原因(它们部分错位),要么是因为它们与具有令人憎恶的价值观的政权结盟,要么是因为在走向 ASI(全杀性生物武器,核战争)的过程中出了问题。

悲观主义的论据:当一些公司接近超级智能时,他们(无论是公司本身,还是控制他们的政府,还是政府内部的派系)都会很容易将其调整为独裁者或寡头,并剥夺其他人类的权力。随着超级智能的临近,人工智能竞赛中即将出现的失败者可能会忍不住用核武器攻击即将到来的获胜者,原因已讨论过这里

乐观的理由:当我试图玩弄这个企业版本时,我无法让它保持一致。它需要首席执行官、协调团队的各个成员以及公司的各个安全人员之间的共谋,他们应该能够注意到人工智能价值观的未经授权的更改。如果我们尝试以近距离模式来思考这一点——例如,想象一位医院首席执行官让医生通过医疗错误巧妙地杀死他的政敌——很明显,这类公司阴谋是罕见且困难的。政府版本更可怕,但至少在美国,我仍然可以想象民众有很多机会了解这一点并防止它发生。但即使在大多数情况下,像这样的政变成功,事情也可能会进展顺利。在后匮乏的世界,独裁者的地位完全稳固,除了施虐之外,没有理由残暴,而大多数人也没有那么施虐。当人类走向星际时,仅仅因为光速的原因,大多数人将脱离独裁者的控制范围。就生物武器而言,我预计闭源人工智能将针对这些问题进行大幅优化,而开源人工智能将在第一次警告后被禁止(或者甚至在那之前就变得经济上令人望而却步)。

定义一个警告射击作为一些特定的与人工智能相关的灾难或近乎灾难,它让人们对人工智能安全感到恐惧,就像他们对 9-11 事件后的恐怖主义或 2020 年 3 月的新冠病毒的恐惧一样。我认为我们有 50% 的机会得到警告射击在人工智能跨过不归路之前。

赞成的论点:目前的人工智能故障模式怪异且不协调——更像是“过于频繁地谈论妖精”,而不是“等待完美的攻击时机”。人工智能变得更加智能和有用,其速度超过了常识(即他们犯过的最愚蠢的错误)的上升速度。如果有某个人工智能足够聪明,可以控制一些重要的系统,错位到想要用它做一些可怕的事情,足够聪明,以一种智能和协调的方式做可怕的事情,但又足够愚蠢,它不会等到它不可能被发现的时候再策划,那么它就会造成一些明显有预谋的可怕灾难,这将是我们的警告。由于大多数人工智能都应该在不归路之前被替换,所以即使是一个有制造麻烦冲动的理性人工智能也应该采取成功概率低的赌注,而不是等待什么都不做,直到退役。此外,许多人类实施的恐怖袭击没有成功的机会,也许人工智能也会有同样的失败模式。

反对的论点:大多数关于警告射击的故事(不包括人工智能采取理性的低概率赌注的故事)都要求人工智能在获得对重要危险系统的控制权之后,要么保持不稳定(即可能出于愚蠢的原因做坏事)要么保持非理性(即真正错位,但更愿意以提供警告的方式采取行动,而不是等到无法回头的时刻)。但人们可能会非常缓慢地给予人工智能对重要危险系统的控制——例如,只给予其对较小子系统的有限控制,并等到所有错误都得到解决后再升级。人工智能似乎在达到控制重要危险系统扩散水平之前就在实验室中达到了超级智能,而超级智能可能是足够聪明,可以等待而不是轻举妄动。如果人工智能只是在一些小方面搞砸了(例如,撞坏了一辆自动驾驶汽车),那么无论人工智能的动机如何,科技公司和新闻媒体都可以将其视为正常错误,而不会被视为警告。

本节的总体想法:我发现自己对一致性比考虑人工智能安全的普通人更加乐观(尽管仍然比普通人口更悲观)——无论是在人工智能默认对齐的可能性的意义上,还是在特定技术(可扩展监督、机械可解释性等)是否可以有意义地改善事物的意义上。不幸的是,这可能是因为我对这些技术的理解不够深入,无法完全掌握它们的缺陷。我处于一个奇怪的位置,我知道我在这里无知,同时又无法从外部观点更新远离我无知的观点,因为大多数真正的内幕对齐专家都在一边,大多数正常人、正常的人工智能专家和常识在另一边,我给他们俩同等的证据价值。

我的典型情景是:在 2030 年代初的某个时候,我们的自动比对研究人员会与顶尖人类一样出色(平均而言,这是在某些方面表现出色而在其他方面表现较差的尖峰组合)。我们让他们从事多个研究项目,特别是可解释性,这是一个自然的起点,因为它不需要太多的哲学。他们大多做得很好,但其中一些有奇怪的失败模式,看起来有点像阴谋。有关于多久将它们视为理性的计划与不一致的错误。随着时间的推移,虽然我们还没有真正解决机械可解释性问题,以至于我们感觉自己完全理解它,但我们却可以很好地探究人工智能是否在欺骗我们。尽管存在风险,我们还是尝试以一些更精明和其他不太精明的方式来对抗这些探测器。有时它会起作用,有时它会鼓励人工智能以探测器无法检测到的方式隐藏自己的阴谋。更好的探针和更好的卷积之间存在着一场军备竞赛,而且——得益于许多其他的对齐技术,以及所有好的东西都以非常幸运的方式关联起来——探针获胜。当我们拥有超级智能时,我们相信他们能够进行一致性研究,并且他们会带领我们完成剩下的工作。

这种情况为明显的变化留下了很大的空间,比如“存在同样的军备竞赛,但卷积赢了,探针输了,人工智能趋向于越来越错位”,或者“好的事情并不像我们想象的那么相关,我们得到的人工智能在某些方面很好,但在其他方面很糟糕,以至于我们仍然感觉它们在与人类竞争并希望我们消失”。我认为瑞士奶酪在这里的方向很好——我可以想到很多关于我们如何获胜的故事,而错位需要在所有这些故事中幸存下来——但同样,大多数最聪明的对齐研究人员都更加悲观。

我认为,一支真正优秀的协调团队(拥有大量计算能力并花费数年时间做好工作)与一支平庸的协调团队(公司认为是事后才想到并仓促行事)之间的 p(doom) 存在 20 个百分点的差异。

我认为,如果美国今天决定暂停人工智能,并与中国接触开始谈判,那么这些谈判将以精心设计的人工智能暂停结束,让两国和大多数人工智能安全界都满意。

基本论点:这是一个疯狂的假设,因为尝试这样做有悖于特朗普政府的政治基因。我想象着这神奇的变化,将此限制在实际存在的充满疯狂警告镜头的世界中。

乐观的理由:中国领导人已正式表示,他们担心人工智能的风险,特别是技术性失业,但有时也担心生存风险。中国正在输掉人工智能竞赛,几乎任何能赢得时间的事情都对他们有利,因此同意这一点符合他们的利益。

悲观主义的论据:华盛顿的中国问题专家表示,中国因作为糟糕的谈判伙伴且从不同意任何事情而臭名昭著。即使特朗普政府愿意开始这些谈判,我想他们也会以某种方式把谈判搞砸。尽管许多聪明人已经制定出双方可以确保对方遵守的计划,但这些计划可能存在未被发现的缺陷,或者国家领导人可能不会相信它们。

我认为,在人工智能跨越不归路之前的某个时间,美国和中国有大约 40% 的可能性同意精心设计的人工智能暂停(如上所述)。

乐观的理由:包括离散警告的可能性(即人工智能引起的灾难)、模糊的通用警告(即越来越多的人认为人工智能变得太强大太快),以及美国政府转向支持暂停谈判的派系(任何民主党人都可能比特朗普政府更支持这一点,而像 AOC 这样的人可能会非常支持)。

悲观主义的论据:与假设美国同意的上一个问题不同,本问题考虑的是美国不同意的可能性。鉴于美国科技公司拥有强大的游说力量,这种可能性很高。即使美国和中国签署了一些标题为“暂停人工智能”的协议,它也可能只是许多不同派系之间的平庸妥协,而且有很多方式可能会失败,并使事情变得更糟而不是更好。

本节的总体想法:一个好的暂停策略将涉及双方能够监控对方的数据中心以防止非法训练,然后将训练限制在双方同意的某个较慢的速度,这样可以让联盟研究人员在发布前彻底测试每一代人工智能,在发布后对其进行监控,并开发技术来应对在深层次上检测到的任何问题,他们希望这些问题能够在分发转移中幸存下来。与放缓相比,我对真正的暂停/停止不太乐观,因为在某些时候,技术和算法的进步已经达到了美国和中国控制之外的小团体很容易领先的地步。我认为像这样的一次良好的暂停可以换来 20 到 50 年的时间,尽管如果一切顺利的话我们不必用完所有的时间。其中一些想法来自草稿;另一些则来自草稿。一旦它们公开,我将发布有关它们的信息,并让您有机会仔细检查我的假设。

我对最强烈的暂停行动主义形式感到紧张,因为我认为它们会引发“我们与他们”的动态,使以后的事情变得更加困难,或者可能迫使我们陷入设计不当的暂停,使事情变得更糟而不是更好(例如,造成悬而未决,或将竞争让给非暂停权力,或化解反人工智能情绪,但不会真正减慢人工智能的速度)。我还担心暂停积极分子在圆形射击室中花费大量精力来对抗对准研究人员或最具安全意识的实验室,而且我担心赋予当今存在的一些特定的支持暂停行为者可能会带来净负面影响。尽管如此,我认为我们可能已经过了政治显着性的临界点,即来自演员组之外的人的支持暂停的激进主义的边际单位在网络上是有益的,我紧张但坚定地支持它。

在我认为暂停是一个现实的选择之前,我就说过我有 20% 的 p(doom)。看来,如果我认为暂停的可能性为 40%,我应该将其降低——也许降至 12%。我不这样做有几个原因。首先,我认为在更乐观的世界中更有可能出现暂停(因为更长的时间线和更多的警告镜头使得暂停和成功的调整努力更有可能)。其次,虽然暂停可能对协调工作有一点帮助,但我认为暂停的大部分效果是将清算时刻推迟到以后——也许是几个世纪之后,但 p(doom) 计算不会给出延迟的分数。我认为我的真实 p(doom|no Pause) 可能高于 20% 几个点,而我真正的 p(doom|maybe-pause) 可能低于 20% 一些点,但是如果你提供过于具体的概率(例如 18%),仇恨者和失败者会生气,所以我将它们都四舍五入到 20%。我承认这可能是情感传播的失败,或者过度依赖某个具有社会有用属性的数字(例如,听起来不太高或太低)。

社区中存在关于对齐和暂停哪个更重要的争论。我不喜欢这样,因为最好的世界是我们两者都做的世界(暂停让调整工作有更多的时间进行工作)。人工智能安全资助者有足够的资金,任何假装分配拨款的争论实际上都是关于其他事情(例如,资助者不喜欢某些事业,因为这会损害他们的声誉),我宁愿关注真正的问题(这会损害他们的声誉吗?值得承受声誉打击吗?),而不是哪个努力值得更多的钱的伪问题。同样,我认为大多数人心里已经知道他们是否会成为更好的政治活动家或安全研究员,而且即使个人能力上的微小差异也会使整体上哪个更有效的问题相形见绌。

许多人指出,暂停是有风险的——例如,在发明可以拯救我们的人工智能之前,我们有可能以其他方式毁灭自己。我对此非常重视,甚至想为此发明假数字。如果我们暂停 30 年,我认为在这 30 年期间,我们用生物武器毁灭自己的可能性是 5%,核武器是 5%,而我们因社会性的某种复杂性灾难而被遗忘的可能性是 5%。这几乎和我对 AI 的 p(doom) 一样高!我仍然认为这可能会产生净积极的结果,部分原因是它可能会降低一些亚存在灾难(如独裁统治)的风险,部分原因是暂停可能不会持续三十年,而更短的暂停长度(例如五年)似乎是理所当然的。

我认为与人工智能相关的下层阶级持续一代人以上的可能性只有 20%,更不用说永久的下层阶级了。

基本论点:即使人工智能看起来将创造一个“永久”的下层阶级,这个下层阶级也只存在于人工智能让他们失业(扩散差距的结束)和技术奇点(人工智能杀死所有人类的时刻,或者人工智能启动后稀缺时期的时刻)之间的间隙中。根据我上面对博斯特罗米亚超级智能的时间表,这可能不会超过一代人(当然,下层阶级可以永久存在的时间比你保持偿付能力的时间长,所以你仍然可能需要做好准备)。

悲观主义的论据:即使人工智能开启了一段后匮乏时期,财富也可能不会流向下层阶级,或者可能以一种无法减轻他们不快乐的方式流向底层(因为相对不平等比绝对财富水平更加突出)。但与此相反,如果“后稀缺”有任何意义的话,那么它肯定意味着很容易将一些财富传递给下层阶级。And if the aristocracy is incentivized to encourage it, or the underclass is incentivized to participate in it, it should be possible for superintelligent social planners and psychologists to find a way to keep people happy despite relative inequality (whether that looks like utopia, or like bread and circuses).

Arguments for optimism: If democracy survives past the point of high unemployment, politicians will have to present citizens with some plan to avoid being part of a permanent underclass.If AI is “controlled” by a broad coalition of capitalists - for example, many different AI companies, those companies’ employers, their investors, their indirect investors through index funds, companies producing the compute/electricity/data centers/robots/raw materials necessary for the AIs to work, etc, then rather than backstab each other for “real” control of “the” AI, everyone might just let the existing economic and political systems continue and reap the gains from trade.Then the government program to prevent the permanent underclass can stay in place, anyone with any capital will get rich (eg if you have Google stock in the index funds in your 401K, or you own land), and that will be a broad enough section of the population that their taxes and altruism can support the rest.

I think there’s a 40% chance that the situation in the year 2100 looks like utopia to its inhabitants, and a 20% chance it also looks like utopia to us.

Basic argument: If AI doesn’t kill us, and there’s no permanent dictatorship, and there’s no permanent underclass, then we get a post-scarcity society, plus superintelligent AIs that we can set to working on other problems like disease and social decay.The 20% where it looks like utopia to its inhabitants, but not to us, includes scenarios like very effective breads-and-circuses that make people very happy, while sacrificing important parts of the human condition.

Arguments for pessimism: If we don’t push against it, the postscarcity future might look like super-addictive drugs, Ultra-TikTok, and sexbots.But if we do push against it, there’s a thin line between wisely preventing all those things, and letting Luddites ban everything interesting and fun about the Singularity - immortality, uploading, genetic engineering, intelligence enhancement, etc (also, surely it would be disappointing if there were literallysexbots).

Arguments for optimism: As long as we have some kind of intelligence augmentation - whether that’s literal IQ enhancement, or just AI superforecasters who can tell us what direction things are heading - our ability to control what direction we’re going will be better than it is now.If there is some kind of willpower augmentation, then people who use it might be able to resist Ultra-TikTok (but what percent of people will want to?) I think there’s a 66% chance that actually, the singularity is intimately related to the universe being a simulation, and that at least some of the events above could be better predicted by knowing what the simulators are thinking than by normal forecasting.

Arguments for simulation: The standard Bostrom argument says that each real civilization will want to simulate many other civilizations, so any random person is more likely to be in a simulation than reality.

But civilizations are especially likely to want to simulate the singularity (“the hinge of history”).Since real people are evenly distributed across the historical population, but simulated people are distributed closer to the singularity, the closer to the singularity you are, the more Bayesian evidence you have that you’re being simulated.This is true both in temporal closeness (eg you could have been born in 1500, but instead you’re living five years before AGI) and personal/causal closeness (eg you could be anyone in the world, but you work at an AI lab).The average reader of this blog is probably closer to the singularity than 99.99% of people throughout history, and I’m probably closer than 99.999%, so we all have very strong evidence that we’re being simulated even beyond the standard Bostrom argument.If we’re in a simulation, then probably once we pass the hinge of history and get to some kind of boring part where everyone is dead or in utopia, the simulation winds down.This could look like us all vanishing into nonexistence.But if we’re being simulated for some reason (eg because we’re likely to correspond to real people), then those real people might advocate for our rights somehow, and we might get some kind of better treatment.In a best-case scenario, this might mean that even if we get killed by AI in our universe, base-level reality has some kind of Simulated Humans’ Rights Act which says they have to pretend we won and give us utopia anyway.But since we’re presumably being simulated for some reason (eg to see whether a species like humans is likely enough to have survived that we should deserve good terms in acausal trade agreements4) we should still fight hard for good outcomes even if this is true.

Arguments against simulation: Too weird.Also, if you’re unusually far away from the singularity (eg you live in a country with no AI industry, are aren’t personally interested in AI), then some of those indexical arguments run in reverse for you.Also, base-level reality might not care about us at all beyond our ability to produce historical data, so they might just switch the simulation off without telling us.

Overall thoughts on this section:I continue to be skeptical of the “permanent underclass” narrative, for reasons discussed in item 5这里。I am worried about concentration of power, though less worried than I might otherwise be for reasons discussed这里

不同意?You can fill in your own numbers for all of these things这里。I’ll report results in a few weeks, and think hard about anything where all the smart people disagree with me.

关于《我的人工智能观点》的评论

暂无评论

发表评论

摘要

摘要:作者概述了他们对人工智能时间表的看法,重点关注到 2027 年、2034 年和 2045 年 AGI(通用人工智能)的发展概率。他们讨论了扩散差距、超人类智能差距、博斯特罗米亚超级智能差距、不归路、对齐问题、警告镜头、潜在的人工智能相关灾难、人工智能暂停的可能性、经济影响、2100 年的社会变化以及对模拟的猜测理论。该文章包括对每个时间线和场景的概率评估,强调递归自我完善进展和监管挑战的不确定性。