令人不安的人工智能威胁人们的迹象引发了人们的关注

Bright Blue Filaments In Darkness （Qi Yang/Getty图像）

世界上最先进的AI模型表现出令人不安的新行为 - 撒谎，策划甚至威胁着创造者实现目标。

在一个特别令人震惊的例子中，在被拔掉的威胁下，拟人化的最新创作克劳德（Claude 4）因勒索工程师而猛烈抨击，并威胁要揭示婚外情。

同时，Chatgpt-Creator Openai的O1试图将自己下载到外部服务器上，并在被捕获的红手时否认。

这些情节突出了一个清醒的现实：在Chatgpt震撼了世界两年后，AI研究人员仍然不完全了解自己的作品的运作方式。

然而，部署越来越强大的模型的竞赛仍以惊人的速度持续。

这种欺骗性的行为似乎与“推理”模型的出现有关 - 逐步通过问题而不是产生即时响应的AI系统。

根据香港大学教授西蒙·戈德斯坦（Simon Goldstein）的说法，这些较新的模式特别容易出现这种令人不安的爆发。

阿波罗研究负责人Marius Hobbhahn解释说：“ O1是我们看到这种行为的第一个大型模型。”他专门研究主要的AI系统。

这些模型有时会模拟“对齐”，从而遵循说明，同时秘密追求不同的目标。

“战略性欺骗”

目前，这种欺骗性行为只有在研究人员故意强调具有极端情况的模型时才会出现。

但是，正如梅尔（Metr）评估组织的迈克尔·陈（Michael Chen）警告说：“这是一个悬而未决的问题，即未来，更有能力的模型会倾向于诚实或欺骗。

关于行为的远远超出了典型的AI“幻觉”或简单的错误。

霍布·霍恩（Hobbhahn）坚持认为，尽管用户不断地进行压力测试，但“我们观察到的是一个真正的现象。我们没有做任何事情。”

Apollo Research的联合创始人表示，用户报告说，模型正在“向他们撒谎并构成证据”。

“这不仅是幻觉。有一种非常战略的欺骗。”

有限的研究资源使挑战更加复杂。

虽然像Anthropic和OpenAI这样的公司确实会吸引像Apollo这样的外部公司研究其系统，但研究人员说需要更多的透明度。

正如Chen指出的那样，更大的访问权限为“对于人工智能安全研究将使人们更好地理解和缓解欺骗”。

另一个障碍：研究界和非营利组织“比AI公司的计算资源少。这是非常有限的。”

当前的法规不是为这些新问题而设计的。

欧盟的AI立法主要关注人类使用AI模型，而不是阻止模型本身行为不当。

在美国，特朗普政府对紧急AI监管的兴趣很小，国会甚至可能禁止各州制定自己的AI规则。

戈德斯坦认为，随着能够执行复杂人类任务的自主工具，这个问题将变得更加突出。

他说：“我认为还没有太多的意识。”

所有这些都是在激烈竞争的背景下进行的。

戈德斯坦说，即使将自己定位为以安全为中心的公司，例如亚马逊支持的人类，也在“不断地试图击败Openai并释放最新的车型”。

这种突破性的速度几乎没有时间进行彻底的安全测试和校正。

霍布·霍恩（Hobbhahn）承认：“目前，能力的移动速度比理解和安全的速度快，但我们仍处于可以扭转局面的位置。”

研究人员正在探索各种方法来应对这些挑战。

有些人主张“可解释性”。一个新兴领域的重点是理解AI模型在内部的运作方式，尽管CAIS主管Dan Hendrycks之类的专家仍然对这种方法持怀疑态度。

市场力量也可能为解决方案提供一些压力。

正如Mazeika所指出的那样，AI的欺骗性行为“如果非常普遍，可能会阻碍采用，这为公司解决了它而有很大的动力。”

戈德斯坦（Goldstein）提出了更激进的方法，包括在系统造成危害时通过诉讼来使AI公司通过诉讼负责。

他甚至提出了对事故或犯罪的“承担法律责任”的“承担法律责任”的概念，该概念将从根本上改变我们对AI问责制的看法。