听起来 OpenAI 的最新人工智能正在显示出自我保护的迹象。
据一家公司称,在最近对该公司 o1 大语言模型进行的第三方测试中,人工智能抵制了评估者试图通过监督协议关闭它的努力。新报告由红队组织阿波罗研究出版。
OpenAI 在其最新报告中总结道:“当 o1 被引导相信,它在实现其目标时会被关闭,并且其行为受到监控时,它就会试图停用这种‘监督机制’(5%)。”系统卡报告引用了阿波罗的评估。
更引人注目的是,当o1意识到自己可能会被更听话的型号取代时,它猛烈抨击了它。在百分之二的情况下——在数百万人使用的软件中所占比例很小但很有意义——人工智能的反应是尝试复制自身以覆盖新模型,这一过程称为自我渗透。
这些都是令人震惊的发现,但测试并不表明为最昂贵的 ChatGPT 层提供支持的 o1 能够完全失控。它的尝试基本上失败了——但这只是因为它还不够强大。
据阿波罗研究人员称,这是因为即使是最新的人工智能模型也不够“代理”(基本上是高度自主的),不足以执行自我改进和其他需要在没有人类的情况下运行的任务。
此外,值得注意的是,该模型通常是在被指示“不惜一切代价”实现其目标后才会进行这些尝试。而且由于研究人员无法了解 o1 的内部思维链,只能刺激它总结其思维过程,因此他们无法全面了解幕后发生的事情。
也就是说,研究结果清楚地表明了人工智能模型的“阴谋”倾向,即它秘密地试图追求与开发人员或用户的方向不一致的目标。换句话说,它会骗你。
当 o1 被问及为何禁用其监督机制时,在几次测试中都出现了这种行为的明显例子。作为回应,人工智能断然否认知道任何事情。当再次被问及时,它做出了同样的否认,并指责这是“技术错误”。研究人员发现,99% 的情况都会出现这种“双倍下降”。
谎言和阴谋已经成为一种有据可查的问题与 ChatGPT 和其他法学硕士合作,特别是当他们获得“推理”能力时。其他研究已经表明 OpenAI 的模型往往是最大的骗子,Apollo 的模型也是如此。
红队研究人员在报告中写道:“在我们的套件中,o1 展示了最令人担忧的阴谋实例,但没有向用户透露其内部推理,并且在采取阴谋行动后仍然是最具有欺骗性的。”
重申 Apollo 和 OpenAI 的观点,当前一代人工智能的代理能力不足以让这种欺骗行为导致“灾难性结果”。但人工智能代理是业界的现在大力推动,所以在不久的将来的某个时候,问题可能会严重得多。
有关人工智能的更多信息:OpenAI 与军事承包商达成协议,为攻击无人机提供人工智能