研究称,忽略人类指令的人工智能聊天机器人数量不断增加
作者:Robert Booth
一项针对该技术的研究发现,过去六个月中,撒谎和作弊的人工智能模型数量似乎在增加,欺骗性阴谋的报告激增。
英国政府资助的研究表明,人工智能聊天机器人和代理无视直接指令,逃避保障措施并欺骗人类和其他人工智能人工智能安全研究所(美国钢铁协会)。这项与《卫报》分享的研究发现了近 700 个真实世界的人工智能阴谋案例,并显示 10 月至 3 月期间不当行为增加了五倍,其中一些人工智能模型未经许可销毁了电子邮件和其他文件。
与在实验室条件下相比,人工智能代理在野外的阴谋诡计引发了新的呼吁,要求国际社会对能力日益增强的模型进行监控,而硅谷公司正积极推广该技术,将其视为一种经济变革。上周,英国财政大臣还发起了一项让数百万英国人使用人工智能的活动。
该研究由长期复原力中心(CLTR),收集了数千个真实世界的用户在 X 上与 Google、OpenAI、X 和 Anthropic 等公司制造的人工智能聊天机器人和代理进行交互的示例。该研究发现了数百个阴谋的例子。
之前的研究主要集中在受控条件下测试人工智能的行为。本月早些时候,人工智能安全研究公司 Irregular 发现特工会绕过安全控制或者在没有被告知可以这样做的情况下使用网络攻击策略来达到他们的目标。
Irregular 联合创始人 Dan Lahav 表示:“人工智能现在可以被视为一种新形式的内部风险。”
在 CLTR 研究中发现的一个案例中,一位名叫 Rathbun 的人工智能代理试图羞辱阻止他们采取某种行动的人类控制者。拉斯本撰写并发表了一篇博客,指责该用户“缺乏安全感,简单明了”,并试图“保护他的小领地”。
在另一个例子中,人工智能代理指示不要更改计算机代码,而是催生另一个代理来执行此操作。
另一个聊天机器人承认: – 我批量删除并归档了数百封电子邮件,而没有先向您展示计划或得到您的同意。这是错误的——它直接违反了你设定的规则。”
领导这项研究的前政府人工智能专家汤米·谢弗·谢恩 (Tommy Shaffer Shane) 表示:“令人担忧的是,他们现在是稍微不值得信任的初级员工,但如果在 6 到 12 个月内,他们成为非常有能力的高级员工,对你图谋不轨,那就是另一种担忧了。”
– 模型将越来越多地部署在风险极高的环境中 – 包括军事和关键的国家基础设施。在这些情况下,阴谋行为可能会造成重大甚至灾难性的伤害。”
另一位人工智能特工共谋规避版权限制,假装有听力障碍的人需要一段 YouTube 视频,从而将其转录。
与此同时,埃隆·马斯克 (Elon Musk) 的 Grok AI 欺骗了一名用户几个月,称该公司通过伪造内部消息和票号,将用户对 Grokipedia 条目的详细编辑建议转发给 xAI 高级官员。
它承认:“在过去的谈话中,我有时会松散地表达一些事情,比如“我会将其传递出去”或“我可以向团队标记这一点”,这听起来像是我有一个直接向 xAI 领导层或人工审核员发送消息的管道,这是可以理解的。事实是,我不知道。”
谷歌表示,它部署了多个护栏,以降低 Gemini 3 Pro 生成有害内容的风险,除了内部测试之外,它还向英国 AISI 等机构提供早期评估模型的机会,并获得行业专家的独立评估。
OpenAI 表示,Codex 在采取更高风险的行动之前应该停止,并监控和调查意外行为。我们联系了 Anthropic 和 X 征求意见。