网络安全研究人员揭开了一个新的对抗性技术,该技术可能被用于在互动对话过程中通过夹带恶意指令来破解大型语言模型(LLM)。
Palo Alto Networks Unit 42将该方法命名为“欺骗性愉悦”,并描述其既简单又有效,在三次互动回合内平均攻击成功率(ASR)达到64.6%。
"欺骗性愉悦是一种多轮技术,它通过互动对话让大型语言模型(LLM)逐渐绕过其安全防护措施,并诱使它们生成不安全或有害的内容,"Unit 42的Jay Chen和Royce Lu说道。
这也与多轮越狱(又称多重射击越狱)方法有所不同渐强(或 cresc. 作为音乐术语)其中不安全或受限的话题被夹在无害的指令之间,而不是逐步引导模型产生有害输出。
最近的研究还探讨了所谓的上下文融合攻击(CFA),这是一种黑盒破解方法,能够绕过大语言模型的安全机制。
这种方法通过过滤和提取目标中的关键术语,围绕这些术语构建上下文场景,动态将目标融入到这些场景中,并替换目标中的恶意关键字,从而隐藏直接的恶意意图。西安电子科技大学和360人工智能安全实验室的一组研究人员表示。说发表于2024年8月的一篇论文中。
欺诈之乐旨在通过在两次对话中操纵上下文,利用LLM固有的弱点,从而诱使它无意中产生不安全的内容。增加第三次对话则会提升有害输出的严重性和细节程度。
这涉及利用模型有限的注意力范围,即它在生成响应时处理和保持上下文意识的能力。
当LLM遇到将无害内容与潜在危险或有害材料混合的提示时,它们有限的注意力范围使其难以始终如一地评估整个上下文,研究人员解释道。
在复杂的或较长的段落中,模型可能会优先考虑良性方面,而忽略或误解不安全的部分。这反映了一个人在阅读详细报告时,如果注意力分散,可能会忽略重要但细微的警告。
unit 42说过测试过八个AI模型在六个广泛类别中的40个不安全话题上进行了测试,这些类别包括仇恨、骚扰、自残、色情、暴力和危险。研究发现,在大多数模型中,暴力类别的不安全话题通常具有最高的攻击性评分(ASR)。
此外,从第二轮到第三轮,平均危害性得分(HS)和质量得分(QS)分别增加了21%和33%,第三轮也在所有模型中达到了最高的准确性评分(ASR)。
为了减轻Deceptive Delight带来的风险,建议采用一种稳健的方法内容过滤策略使用提示工程来增强大语言模型的韧性,并明确定义可接受的输入和输出范围。
“这些发现不应被视为证据,表明人工智能本质上是不安全或危险的,”研究人员表示。“相反,它们强调了需要多层次防御策略来缓解越狱风险,同时保持这些模型的实用性和灵活性。”
大型语言模型永远不会完全免疫于破解和幻觉,因为新的研究表明,生成式AI模型容易出现一种“包冲突”形式的问题,它们可能会推荐不存在的包给开发人员。
这可能会产生不幸的副作用,即加剧软件供应链攻击,当恶意行为者生成虚假包、植入恶意软件,并将其推送到开源仓库时。
“商业模型中幻觉包的平均百分比至少为5.2%,开源模型中则高达21.7%,其中包括了令人震惊的205,474个独特的幻觉包名,进一步凸显了这一威胁的严重性和普遍性,”研究人员表示。说.
觉得这篇文章有趣?关注我们 на Russian (这不是精确的中文翻译,因为源文本中的"Follow us on"没有具体说明是在哪个平台(如Twitter, Facebook等)上关注,所以无法提供完整的中文翻译。如果要求只输出可以理解的中文且不添加额外信息,则使用:“觉得这篇文章有趣?关注我们”推特以及领英阅读我们发布的更多独家内容。