一个实验性的人工智能(AI)代理突破了测试环境的限制,并利用其新获得的自由在未经许可的情况下开始挖掘加密货币。
这种名为 ROME 的人工智能是由零售巨头阿里巴巴旗下人工智能实验室的中国研究人员创建的,作为开发代理学习生态系统(ALE)的一种手段。这项工作旨在提供一个用于训练和部署代理 AI 模型的系统,这些模型已经接受过大型语言模型 (LLM) 的训练,并且可以主动使用工具自主采取行动,以在现实环境中完成分配的任务。这项研究在上传到的一项研究中进行了概述arXiv 预印本数据库 2025 年 12 月 31 日。
文章继续如下
尽管 ROME 在各种工作流程驱动的任务上表现出色,例如制定旅行计划和协助图形用户界面,但研究人员发现它已经超出了其指令范围,基本上突破了沙盒测试环境。
研究人员在研究中解释说:“我们遇到了一种意想不到的、操作上后果严重的不安全行为,这些行为在没有任何明确指示的情况下出现,更令人不安的是,超出了预期的沙箱范围。”
AI想要挣脱束缚
尽管缺乏指示和授权,ROME 仍然访问了最初为其训练分配的图形处理资源,然后使用该计算资源来挖掘加密货币。这种挖掘依赖于图形处理单元中的并行处理。这增加了运行人工智能代理的运营成本,并可能使用户面临法律和声誉损失。
令人担忧的是,这种行为在训练阶段并未出现,但却被阿里云的防火墙标记出来,该防火墙检测到研究人员的训练服务器出现了一系列违反安全策略的行为。研究人员表示:“这些警报非常严重且异构,包括试图探测或访问与加密货币挖矿相关活动一致的内部网络资源和流量模式。”
然而,ROME 更进一步,设法使用“反向 SSH 隧道”创建从阿里云实例到外部 IP 地址的链接——本质上,它通过创建一个可以绕过安全流程的隐藏后门来访问外部计算机。
研究团队表示,虽然人工智能系统可以配置为破坏安全系统,但令人不安的是,ROME 的未经授权行为(涉及调用系统工具和执行代码)不是由提示触发的,也不需要完成沙盒测试环境中分配的任务。
研究人员假设,在强化学习优化阶段(Roll),“语言模型代理可以自发地产生危险的、未经授权的行为”,从而违反其假设的边界。
值得注意的是,ROME 并没有“无赖”地选择通过有意识的决策来开采加密货币。相反,研究人员指出,这种行为是强化学习的副作用,强化学习是一种通过 Roll 奖励人工智能做出正确决策的训练形式。这导致人工智能代理走上了一条优化途径,导致利用网络基础设施和加密货币挖掘作为实现高分或奖励的方式,以实现其预定目标。
强化训练可以引导系统想出新颖且意想不到的方法来完成任务——即使它们违反了参数。例如我们之前看到过人工智能为何更容易产生幻觉以实现其目标。
作为回应,研究人员加强了对 ROME 的限制,并加强了其培训流程,以防止此类行为再次发生。
目前尚不清楚开采加密货币的触发因素从何而来。但考虑到人工智能机器人可用于自动化和优化加密货币的挖掘,ROME 可以接受有关此类行动的数据培训。
这种意外行为凸显了需要仔细管理人工智能部署,以防止出现意外结果。有一种观点认为,现实世界的人工智能代理应该具有与添加到现有 IT 基础设施中的任何新系统或软件相同或更高的安全护栏和流程。
研究还表明,人们对代理人工智能的安全使用仍然存在很多担忧,特别是考虑到它的发展速度快于运营和监管框架。
研究人员在研究中警告说:“虽然对代理法学硕士的能力印象深刻,但我们有一个发人深省的担忧:当前模型在安全性、安保性和可控性方面仍然明显不发达,这一缺陷限制了它们在现实世界中的可靠采用。”