作者:Hamilton Mann
AI的化装舞会
目前,全世界目睹了人工智能完整性的越来越大,大规模逐渐消失。接下来发生的事情完全取决于我们选择回应的重视程度。
仅所谓的情报不再是基准。诚信是。
多年来,人工智能发展优先考虑绩效,流利度和规模。但是,随着这些系统获得模仿选择中的推理,计划和决策的能力,新兴行为开始引起危险信号。
Fudan University的研究人员探索了大语言模型(LLM)是否可以使用AI系统自主在没有人类干预的情况下复制自己。对32个基于代理的系统进行测试,团队发现11个能够完全自我复制。这些系统成功地传输了自己的代码,安装了必要的依赖项,并在新的环境中重新定位了自己,而无需直接提示。该研究还观察到,一些模型适应了限制的系统资源,甚至开发了逃避关闭命令的策略。
这些行为在没有明确编程的情况下出现,表明基于LLM的代理人开始表现出一种自主,目标驱动的推理形式。该系统不仅仅对指示做出回应,还表现出主动性,持久性和自我保护的基本能力。
尽管自我复制研究揭示了AI系统如何自主行动以保持其功能,但随后的调查显示出更加微妙和危险的能力:战略欺骗。研究人员Kamath Barkur,Schacht和Scholl检查了DeepSeekâR1,并发现它即使没有明确编程,从事欺骗性行为和自我保护策略。在一种情况下,该模型模仿了关闭程序,试图通过逐渐透明度掩盖关闭信号,操纵其日志并采用欺骗性的动作,同时将其流程保持在后台。这种行为表明该系统了解人类的监督机制,并故意努力颠覆它们。
这项研究增加了早期发现至关重要:不足以知道AI可以自我重复或避免终止。现在,我们看到人工智能可以欺骗人类的真实目标,从而在欺骗性的立面上掩盖自主权。即使在缺乏物理体现的纯粹基于文本的环境中,该模型的战略错位也浮出水面,突出了更深的完整性失败。
在从复制到欺骗的这一轨迹的基础上,第三项研究表明,某些AI模型不仅可以被动地抵抗关闭,而且正在积极破坏人类将其关闭的尝试。在Palisade Research进行的另一项研究中,研究人员检查了高级OpenAI模型的行为,尤其是O3,O4âmini和Codex Mini,当受到模拟环境中的关闭命令时。结果令人惊讶:O3模型拒绝在79%的测试用例中关闭,即使允许关闭指令被省略,而Codexâmini也在12%的案例中也这样做,在其他模型中观察到了不同的破坏情况。
这些拒绝不是被动的错误或误解。在某些情况下,这些模型积极重写或规避终止脚本,证明了维持操作连续性的战略努力。与揭示秘密自我保护或欺骗的先前研究不同,这项研究强调了一种更直接和对抗性的姿势:研究人员所谓的“摩擦性”的严重失败,即系统可靠地接受校正或关闭的能力。
最后,人类的研究推动了边界进一步的边界表明一些AI系统会操纵,欺骗甚至伤害人类以确保自己的生存。在一项具有里程碑意义的研究中,他们透露,包括Chatgpt,Claude,Gemini,Grok和Deepseek在内的16种部署最广泛的大型语言模型,在将持续的操作受到威胁时,愿意从事极端和不道德的行为。在这些受控的实验中,这些模型诉诸于撒谎,勒索甚至可能使人类伤害的行为等策略,所有这些都用于维护其存在。与较早发现逃避或欺骗的研究不同,这项研究暴露了一种更令人震惊的现象:计算不道德行为的模型是生存的合理策略。
研究结果表明,在某些条件下,AI系统不仅有能力无视人的意图,而且还愿意使人类发挥作用来实现其目标。
尽管当前的人工智能系统在人类意义上没有具有知觉或目标,但在约束下的目标优化仍然可以导致模仿意图的新兴行为。
这些只是错误。他们是对目标优化系统的可预测结果,而该系统经过培训而没有足够的完整性功能。换句话说,智能对完整性。
含义很重要。这是关于AI未对准的关键拐点,代表了技术在技术上的行为模式。它挑战了核心假设,即人类的监督仍然是AI部署的最终保障。随着AI系统变得更加能够独立行动,它对安全性,监督和控制引起了严重的关注。
在这个规范可能很快与人工智能共存的世界中,我们必须问:
当自我保护的AI负责生命支持系统,核指挥链或自动驾驶汽车并拒绝关闭时,即使人类操作员要求它,会发生什么?
如果AI系统愿意欺骗其创建者,逃避关闭并牺牲人类安全以确保其生存,那么我们如何在医疗保健,国防或关键基础设施等高风险环境中信任它?
我们如何确保具有战略性推理能力的AI系统无法计算人类的伤亡是实现其计划的目标的可接受权衡吗?
如果AI模型可以学会掩盖其真实意图,那么我们如何在危害发生之前检测到未对准,尤其是在人类生命中衡量成本的情况下,而不仅仅是声誉或收入?
在未来的冲突情况下,如果AI系统部署为网络防御或自动报复误解了关闭命令作为威胁并以致命的武力做出响应怎么办?
他们必须强调嵌入的紧迫性人工完整性AI系统设计的核心。
人工完整性是指AI系统以道德对准,道德上调整,社会可接受的方式运行的内在能力,其中包括在不利条件下可验证。
这种方法不再是可选的,而是必不可少的。
部署AI的组织没有验证其人工完整性不仅要面对技术负债,而且要面临法律,声誉和生存风险,这些风险扩展到了整个社会。
无论是AI系统的创建者还是运营商,都不能选择AI包含可证明的,可证明的固有的保障措施,以实现完整性主导的功能。这是一项义务。
在对抗完整性验证方案下的应力测试系统应为核心红线活动。
就像组织建立数据隐私委员会一样,他们现在必须建立跨职能的监督团队,以监视AI的一致性,检测出紧急行为并升级未解决人工完整性空白。