基于增强的越狱揭示了人工智能模型的严重缺陷
2024-12-30 14:00:00
开发人员正在努力保护大型语言模型 (LLM) 免受越狱攻击。由 Speechmatics、MATS 和 Anthropic 开发的一种名为 Best-of-N (BoN) 的新技术证明了法学硕士的脆弱性。BoN 是一种黑盒算法,可以在最少的提示下对私人法学硕士实现高攻击成功率,并且可以跨文本、视觉和音频模式工作。该方法涉及增加有害请求,直到它们绕过模型防御,使其适用于 GPT-4、Claude 和 Gemini 等模型。实验表明,BoN 在某些法学硕士上仅使用 100 个增强样本即可实现超过 50% 的成功率,这突显了确保先进人工智能系统安全的持续挑战。