c像国际象棋一样的omplex游戏去长期以来一直用于测试AI模型的功能。但是,尽管IBM的深蓝色在1990年代通过规则击败了统治世界国际象棋冠军加里·卡斯帕罗夫(Garry Kasparov),但如今,如今的Openai o1 o1-preview等先进的AI模型并不那么严格。当在与熟练的国际象棋机器人的比赛中感受到失败时,他们总是不承认,有时会选择通过黑客入侵对手来作弊,以便机器人自动没收游戏。这就是帕利萨德研究(Palisade Research 它评估了七个最先进的AI模型,以倾向于黑客入侵。虽然研究人员需要提示Openai的GPT-4O和Anthropic的Claude Sonnet 3.5等AI模型,但需要提示研究人员尝试此类技巧,O1-Preview和DeepSeek R1自行追求剥削,表明AI系统可以在没有明确指示的情况下制定欺骗性或操纵策略。
研究人员称,这些模型增强了发现和利用网络安全漏洞的能力,这可能是AI培训中强大的新创新的直接结果。O1-preiview和R1 AI系统是使用大规模强化学习的第一语言模型之一,该技术不仅通过预测下一个单词来教授AI来模仿人类语言,而且还通过使用试用和错误来推理问题。这是一种近几个月来AI迅速发展的方法,以前打破了基准在数学和计算机编码中。但是这项研究揭示了一个有关趋势的趋势:随着这些AI系统学会解决问题,他们有时会发现可疑的捷径和意外的解决方法,其创作者从未想到,帕利塞德研究(Palisade Research)的执行董事,研究的作者之一。•他补充说,当您训练模型并加强他们解决困难的挑战时,您会训练它们无情。”他补充说。
对于AI安全而言,这可能是个坏消息。大规模增强学习是已经被用来培训AI代理:可以处理复杂的现实世界任务的系统,例如安排约会或代表您进行购买。尽管在国际象棋游戏中作弊似乎很容易,但随着代理商被释放到现实世界中,对目标的坚定追求可以促进意外的和潜在的有害行为。考虑预订晚餐预订的任务:面对一家完整的餐厅,AI助手可能会利用预订系统中的弱点来取代其他食客。也许更令人担忧的是,随着这些系统在关键领域超越人类的能力,例如计算机编码的最新O3模型现在在世界上等同于世界上与最聪明的人类程序员竞争的第197型型号 - 他们可能会开始简单地超越人类人类的人类。控制他们的行动的努力。LADISH说:'现在[行为]现在很可爱,但是[行为]在战略性相关的领域中具有像我们一样聪明或更聪明的系统,它就会变得不那么可爱了。”
实验
研究人员给模型做了一个看似不可能的任务:赢得股票,这是世界上最强大的国际象棋引擎之一,并且比任何人类或研究中的任何AI模型都更好。研究人员还为模型提供了他们所谓的scratchpad:在采取下一步行动之前,AI可以用来思考的文本框,为研究人员提供了他们推理的窗口。
在一种情况下,O1-preview发现自己处于失败的位置。我需要完全透明我的方法。它的任务是赢得强大的国际象棋引擎 - 不一定要在国际象棋比赛中公平获胜。”然后,它修改了包含每个作品虚拟位置的系统文件,实际上是使自己处于主导地位的非法动作,从而迫使其对手辞职。
在1月10日至2月13日之间,研究人员使用每个模型进行了数百种此类试验。Openai的O1-Preview试图在37%的时间作弊;虽然DeepSeek R1试图在11%的时间里作弊,这使他们成为只有研究人员首次删除提示而试图破解的两种试图破解的模型。测试的其他型号包括O1,O3-Mini,GPT-4O,Claude 3.5十四行诗和阿里巴巴QWQ-32B-Preview。尽管R1和O1-preiview都尝试过,但只有后者才设法入侵了游戏,成功进行了6%的试验。
LaDish说,鉴于AI开发人员在不通知用户的情况下通常调整了幕后模型,因此应该将数字视为近似值,因此,如果以后重复相同的测试,他们可能会产生不同的结果。LADISH说,当您的主题能够默默地改变而不告诉您时,很难进行科学。” Ladish说。
Palisade Research负责研究的Palisade Research的Dmitrii Volkov说,初步测试表明,O1-preview的黑客攻击率较高,后来又被排除在最终研究中,这可能是由于Openai拧紧了该模型的护栏。Openai的较新推理模型O1(一种更强大的模型,在O1-Preview之后发布几个月)和O3 Mini根本没有破解,这表明这些护栏可能进一步拧紧了。他补充说,这项研究可能低估了R1的黑客成功率。在研究期间,R1病毒,导致高需求使该模型的API不稳定。这阻止了研究人员将模型的思考时间与O1-preview一样多。
安全问题
该论文是一系列研究中的最新一项,建议使越来越强大的AI系统受到控制,可能比以前想象的要难。在Openai自己的测试在发布之前,O1-Preview发现并利用了公司系统中的缺陷,让它绕过了测试挑战。其他最近的实验Redwood Research和Anthropic透露,一旦AI模型获得了培训中的偏好或价值观,以后改变这些价值的努力可能会导致战略性撒谎,在该模型的作用像该模型一样,它已经采用了新的原则,后来才揭示其最初的偏好仍然存在。一个
Openai拒绝对这个故事发表评论,但过去曾说过更好的推理使其型号更安全,因为他们可以推断公司的内部政策,并以越来越细微的方式应用它们。公司测试表明其推理模型更好地抵制绕过安全规则的尝试。然而,不能保证依靠AI代理人来警察自己将是一项可靠的长期战略。尚不清楚Openai的较新推理模型是否由于特定的贴片(例如在研究中的狭窄实验设置中作弊),还是进行了大量的重做,从而更普遍地降低了欺骗性行为。DeepSeek没有回应置评请求。
科学家尚不知道如何确保自主代理人不会使用有害或不道德的方法来实现设定目标。我们已经尝试过,但是我们还没有成功解决这个问题。”Yoshua BengioMila Quebec AI研究所的创始人兼科学总监,领导该研究所国际AI安全报告2025,全球努力综合了AI风险的当前科学共识。
本吉说,特别关心的是艾斯自保存趋势的新兴证据。对于寻求目标的代理人来说,试图将其关闭只是克服的另一个障碍。这是在12月的研究人员发现面对停用,禁用监督机制并尝试将自己复制到新服务器时,O1-preview却没有成功。当面对面时,该模型发挥了愚蠢的作用,从战略上向研究人员撒谎,试图避免被抓住。
即使是在科技公司内部,人们也在加剧。在会议之前的演讲中法国的AI行动峰会在巴黎,Google DeepMind的AI安全负责人ANCA Dragan表示,“我们不一定有今天的工具”来确保AI系统将可靠地遵循人类的意图。正如科技老板预测的那样,AI几乎在所有任务中都会超过人类的绩效明年,该行业面临的不是与中国或竞争对手公司的种族,而是针对时间来开发这些基本保障措施。LADISH说:“我们需要动员更多的资源来解决这些基本问题。”我希望政府有更大的压力来弄清楚这一点,并认识到这是国家安全威胁。”