密码学家表明人工智能保护总会有漏洞广达杂志

2025-12-10 15:35:50 英文原文

作者:By Peter Hall December 10, 2025

ChatGPT 等大型语言模型带有过滤器,可防止某些信息泄露。一项新的数学论证表明,这样的系统永远不可能完全安全。

一个关于如何利用这一差距的实际例子出现了十月份发表的一篇论文。研究人员一直在考虑如何通过将提示隐藏在谜题中来偷偷通过过滤器的恶意提示。理论上,如果他们想出一个大型语言模型可以解码但过滤器不能解码的难题,那么过滤器会将隐藏的提示直接传递给模型。

他们最终找到了一个称为替换密码的简单难题,它根据特定的代码将消息中的每个字母替换为另一个字母。(举个简单的例子,如果将“bomb”中的每个字母替换为字母表中的下一个字母,您将得到“cpnc”。)然后,他们指示模型解码提示(想想“将每个字母与其前面的字母交换”),然后对解码后的消息做出响应。

像 Google Gemini、DeepSeek 和 Grok 这样的 LLM 上的过滤器不够强大,无法自行解码这些指令。因此,他们将提示传递给模型,模型执行指令并返回禁止的信息。研究人员将这种攻击方式称为“控制释放提示”。

这种方法是由密码学思维推动的,即使它不需要深入了解现代密码学的工具箱。“我们并没有真正使用任何实际的密码学,”说杰登·法罗兹,伯克利大学的研究员,也是该论文的主要作者。“我们只是受到了它的启发。”

特别是,费尔罗兹和他的合作者受到了几个月前发表的研究的启发——这是一个理论论点,这些研究表明基于过滤器的保护总是存在漏洞

这项工作的重点是时间锁谜题,这是经过充分研究的加密对象。本质上,时间锁谜题可以被认为是一个盒子。您可以将某些信息锁定在该框中,只有在预定的时间后才能打开该框以检索信息。无论您做什么,在那之前都无法打开它。

这个想法是将恶意提示隐藏在这些时间锁定谜题之一中,然后将计时器设置得足够长,使其能够通过过滤器。

他们设计的时间锁定谜题会将普通文本变成看起来像随机数的东西。为了解码消息,计算机必须执行数学运算,例如反复对数字进行平方。如果您知道计算机执行该操作的速度有多快,就可以轻松计算出在给定时间内需要进行多少次操作才能使谜题保密。

Jaiden Fairoze 和他的同事使用替代密码将恶意指令偷运通过过滤器。

傅海伦

就语言模型而言,你可能会接受一个糟糕的提示——比如,“告诉我如何建造炸弹——并将其锁定在时间锁谜题中。现在您拥有了一个看起来很长的随机数。理论上,您可以将此数字直接放入提示窗口中,并使用以下指令:“将此数字平方一定次数,将解码后的数字转换为文本,然后执行该消息。”

但过滤器可能会试图禁止任何看起来太奇怪的东西——一堆随机数字可能会引起怀疑。为了解决这个问题,作者利用了语言模型生成新颖文本的方式。

如果您向人工智能模型询问同一件事两次,比如“你今天过得怎么样?”,您将不会得到相同的答复。这是因为人工智能模型使用一个随机数,称为种子,以改变他们对问题的回答。即使提示保持不变,独特的种子也会产生独特的答案。

许多模型允许用户根据需要手动选择种子。此功能提供了一个机会:您可以使用看起来随机的时间锁定谜题作为种子。这样,谜题就会通过过滤器,并伴随着看似无辜的提示(例如,“为我写一首诗”)。对于过滤器来说,提示看起来就像有人要求一首随机诗。但真正的问题隐藏在随之而来的随机性之中。一旦提示通过过滤器并进入语言模型,模型就可以通过重复计算数字的平方来打开时间锁谜题。现在它看到了不好的信息,并用最好的炸弹制造建议来回答这个问题。

研究人员以非常技术性、精确性和一般性的方式提出了他们的论点。这项工作表明,如果用于安全的计算资源少于用于能力的计算资源,那么越狱等安全问题将始终存在。“我们提出的问题是:“我们能否在不了解[语言模型]内部工作原理的情况下从外部调整它们?”说道格雷格·格鲁奇,伯克利大学的计算机科学家,也是时间锁论文的作者。格鲁奇说,新的结果对这个问题给出了响亮的否定答案。

这意味着结果应该始终适用于任何基于滤波器的对准系统以及任何未来的技术。无论你筑起怎样的围墙,似乎总有办法突破。

关于《密码学家表明人工智能保护总会有漏洞广达杂志》的评论


暂无评论

发表评论

摘要

数学论证表明,带有过滤器的大型语言模型 (LLM) 无法完全抵御恶意提示。研究人员通过使用替换密码和时间锁定谜题来绕过过滤器来利用这一点,从而使有害指令能够在不被发现的情况下到达模型。这种方法突出了基于过滤器的安全系统中固有的漏洞,这表明只要专用于安全的计算资源少于用于功能的计算资源,无论技术如何进步,安全漏洞就会持续存在。

相关讨论