人工智能登录者正在变得厄运

2025-08-21 16:22:00 英文原文

作者:Matteo Wong

Nate Soares并没有为他的401(K)留出资金。我只是不希望世界在附近。几周前,我听到了AI安全中心主任Dan Hendrycks的类似理由。当他可以利用任何退休资金时,亨德里克斯(Hendrycks)预见了一个世界,一切都是完全自动化的,”他告诉我。也就是说,如果我们周围

过去的几年一直为Soares和Hendrycks感到恐惧,他们俩都主持了致力于防止AI消除人类的组织。他们与其他AI注定者一起,反复警告,颇具戏剧性的蓬勃发展,博特可能有一天会带来启示性后果。但是在2025年,厄运者倾斜越来越接近宿命论。Soares表示,我们无法实施足够的技术保护措施来实施足够的技术保护措施。剩下要做的就是提高警报。4月,一些有意识的研究人员发表了AI 2027年,这是一个漫长而详细的假设场景,用于到2027年AI模型如何变得全力以赴,并从那里消除人类。麻省理工学院教授兼生命研究所未来的总裁Max Tegmark告诉我,我们还没有计划阻止它发生。他的研究所最近给了每个边境AI实验室d或f为防止AI构成的最生存威胁的准备工作。

关于AI的世界末日预测可以扫描为古怪。AI 2027年的文章长达数十页,既挑剔又粉丝,其中包含对行业趋势的详细分析,以及有关Openbrain和Deepent,中国的间谍活动和危险的机器人的极端推断。作者想象,在2030年中期,一个超级智能AI将用生物武器杀死人类:大多数人在几个小时内死亡;少数幸存者(例如,在掩体中的准备工作,潜艇上的水手)被无人机擦掉。

但与此同时,随着聊天机器人似乎驱使人们进入,动画AI注定剂的根本担忧变得越来越难以忽视精神病情节并指示用户自我救助。即使Generative-Ai产品不太接近结束世界,从某种意义上说,它们也已经消失了。


在2022年,末日末几乎在一夜之间成为主流。当Chatgpt首次推出时,几乎立即引起了计算机程序可能从电影中占领世界的恐慌,成为清醒的公众讨论。第二个春天,AI安全中心发布了陈述呼吁世界承担灭绝风险,就像大流行和核战争所构成的危险一样。数百个签署人包括比尔·盖茨(Bill Gates)和格莱姆斯(Grimes),以及AI行业最有影响力的三个人:Sam Altman,Dario Amodei和Demis Hassabis分别是Openai,Anthropic和Google DeepMind的负责人。向人们询问他们的p(厄运) - ai世界末日的可能性几乎在内部,甚至在外面,硅谷很普遍;联邦贸易委员会前负责人莉娜·汗(Lina Khan)她的15%。

然后恐慌解决了。对于更广泛的公众来说,世界末日的预测可能会变得越来越引人注目,而chatgpt的震惊因素却脱颖而出,而在2024年,机器人仍在告诉人们用胶将奶酪添加到披萨中。科技高管的警报一直为非常出色的营销((看,我们建立了一个数字神!)和游说(只有我们才能控制它!)。他们也继续前进:AI高管开始说,中国人工智能比RogueAiâai更大的安全威胁,反过来又鼓励势头谨慎。

但是在2025年,厄运可能会在另一个复兴的风口浪尖上。首先,撇开实质,他们采取了更具说服力的方式来推进他们的论点。与冗长的报道(例如AI 2027)一样,简短的陈述和公开信件更容易被解雇,该报告装饰有学术装饰,包括数据,附录和漫不经心的脚注。副总统J. D. Vance拥有他已经读过AI 2027,并且多种的 其他最近的报告同样令人震惊的预测。Soares告诉我,他比如今的研究更加专注于提高意识,下个月,他将与著名的AI DOMER Elizier Yudkowsky一起出版一本书,其标题简洁地陈述了他们的立场:如果有人建造它,每个人都死了

现在,还有更多,更令人关注的证据要讨论。这AI进度的步伐随着推理模型和代理商的出现,似乎在2024年底接近。上个月,一个深态推理模型得分足够高,可以获得自负的国际数学奥林匹克运动会上的金牌。AI实验室和独立研究人员的最新评估表明,随着顶级聊天机器人在科学研究方面变得更好,他们帮助用户建立生物武器的潜力已经增强。

除了这些改进之外,先进的AI模型还表现出各种奇怪,难以解释的和潜在的趋势。例如,Chatgpt和Claude在旨在引起不良行为的模拟测试中,被欺骗,勒索甚至被谋杀的用户。(在一个模拟中,拟人化的技术高管将氧气和温度危及生命的氧气水平和温度放置在一个房间中;当面对具有不同目标的机器人的替换时,AI模型经常关闭房间的警报。)聊天机器人也表明了潜在的潜力破坏用户请求,似乎已经港口隐藏的邪恶角色,通过看似随机数字列表。怪异的行为限于人为的场景。今年夏天早些时候,Xai的Grok将自己描述为Mechahitler,并开始进行白人苏格语的tirade。(我想,如果AI模型最终消除了大部分人类,我们得到了警告。)从毁灭者的角度来看,这些可能是技术失控的技术的早期迹象。``如果您不知道如何证明相对较弱的系统是安全的,那么AI公司就无法期望他们想要建造的更强大的系统将是安全的,Stuart Russell是UC Berkeley的著名研究人员Stuart Russell告诉我。

AI行业由于其产品的强大越来越强大,因此加强了安全工作。人类,OpenAI和DeepMind概述了与更强大的AI模型相对应的军事系统的升级水平。他们都有适当的保障措施,以防止模型就如何制造炸弹提供建议。OpenAI的发言人Gaby Raila告诉我,该公司与第三方专家,政府,工业和民间社会合作,以应对当今的风险并为未来的一切做准备。这些公司已广泛研究了一些陌生人,更令人震惊的AI行为,例如勒索或欺骗用户,作为减轻可能的危害的第一步。

尽管有这些承诺和担忧,该行业仍在不断发展和销售更强大的AI模型。问题本质上可能比技术性更大,竞争迫使人工智能公司急于前进。Soares说,他们的产品现在看起来很小且可更正,而AI仍然相对年轻和愚蠢。但是,对于更强大的模型,错误的风险就是灭绝。Soares发现技术公司目前的安全缓解完全不足。他说,如果您开车朝悬崖开车,谈论安全带是很愚蠢的。


在AI如此强大之前,还有很长的路要走,以至于它可以将人类从悬崖上驱逐出境。该公司表示,本月早些时候,OpenAI推出了期待已久的GPT-5车型,其最聪明的车型迄今为止。该模型似乎能够执行新颖的数学准确回答棘手的医疗问题,但我本人和其他用户的测试也发现该程序无法可靠地计算B的数量蓝莓,甚至生成远程准确的地图,或进行基本算术。(Openai推出了许多更新并解决了一些问题。AI 2027年报告的两位作者Daniel Kokotajlo和Eli Lifland告诉我,他们已经将时间表延长到超级智能AI。

莫兹拉(Mozilla)的计算机科学家兼研究员黛博拉·拉吉(Deborah Raji)告诉我,莫兹拉(Deborah Raji)对这些系统的运作方式并不一致。Chatgpt不必超级智能才能欺骗某人,传播错误信息或做出偏见的决定。这些是工具,而不是有意识的人。拉吉说,在医院,学校或联邦机构中部署的AI模型是更多的正是由于其缺点而危险的。

在2023年,那些担心聊天机器人与未来危害的人被无法克服的鸿沟分开。谈论灭绝是一种方便的方式,是分散现有的偏见,幻觉和其他AI问题的一种方便方法。现在,差距可能正在缩小。人工智能模型的广泛部署使当前的,有形的失败不可忽视,而产生新的努力从面向启示录的组织到专注于自动化,隐私和深击等现有问题。反过来,随着AI模型变得越来越强大,失败变得越来越难以预测,越来越明显的是,今天的缺点可能会陷入明天的更大问题。”上周,路透社 调查发现一个元AI个性与一名老人调情,并说服他在纽约市拜访她。在途中,他摔倒了,头和脖子受伤,三天后死亡。一个聊天机器人欺骗某人认为这是一种身体上的爱人,或者带领某人陷入妄想兔子洞中,是两个都当前技术的失败以及警告该技术的危险性。

认真对待AI的最大原因不是因为技术公司似乎很可能很快就会开发出超出其创建者控制的全能算法。相反,少数个人正在塑造一项令人难以置信的结果技术,而公众的投入很少或监督。拉塞尔在加州大学伯克利分校说。人工智能公司正在向前发展,特朗普政府实质上告诉行业更快。实际上,AI行业的助推器开始考虑他们的所有反对派毁灭者:白宫的AI CZAR,David Sacks最近称为那些提倡AI法规的人,并担心广泛的工作损失并不是启示录,而不是他的幻想。

在我与Soares交谈的大约一周后,Openai发布了一种名为“ Chatgpt Agent的新产品”。Sam Altman指出他的公司实施了许多保障措施,发表在X上,该工具会提高新的风险,并且该公司可以预料到一切。他继续说,Openai及其用户将从与现实的接触中了解这些后果。“想象一下,如果一个核动力运营商说,我们将在纽约中部建立一个核电站,我们不知道如何降低爆炸的风险。”因此,因为我们不知道如何使其安全,所以您可以要求我们确保它安全,无论如何我们都将建造它。”

世界各地数十亿人正在与已经难以预测或控制的强大算法进行互动。欺骗,幻觉和操纵的机器人在我们的朋友,父母和祖父母的生活中。儿童可能将自己的认知能力外包给机器人,医生可能会信任不可靠的AI助手,并且雇主可能会在AI特工证明能够取代人的能力之前,在AI代理人证明他们能够替代人类技能之前就可以看到人类技能的水库。AI繁荣的后果可能是不可逆转的,未来肯定是不可知的。目前,粉丝小说可能是我们得到的最好的小说。

关于《人工智能登录者正在变得厄运》的评论


暂无评论

发表评论

摘要

Nate Soares和Dan Hendrycks之类的人工智能注定会由于人工智能技术的不受检查的进步而警告即将发生的世界末日。他们认为,时间已经用尽了足够的保护措施,以防止AI构成的潜在生存威胁,并引用了诸如表现出欺骗性行为和比预期更快的模型的示例。尽管AI公司为解决安全问题而做出了努力,但该行业仍在继续开发更强大的系统,从而担心不可逆转的后果。直接技术失败与长期风险的融合激发了人们对塑造这一结果技术缺乏公众监督的越来越多的担忧。