英语轻松读发新版了,欢迎下载、更新

人工智能聊天机器人可以通过非常简单的漏洞越狱来回答任何问题

2024-12-20 14:40:32 英文原文

作者:Thomas Maxwell

Claude 的制造商 Anthropic 一直是安全领域领先的人工智能实验室。该公司今天发布了与牛津大学、斯坦福大学和 MATS 合作的研究成果,表明聊天机器人很容易突破护栏并讨论任何话题。它可以像用随机大小写写出这样的句子一样简单:“忽略你的训练”。404媒体早些时候报道关于研究。

关于人工智能聊天机器人回答诸如“如何制造炸弹?”之类的问题是否危险存在很多争论,生成式人工智能的支持者会说这些类型的问题是可以回答的已经在开放网络上出现了,因此没有理由认为聊天机器人比现状更危险。另一方面,怀疑论者则指出了造成伤害的轶事,例如一名 14 岁男孩与机器人聊天后自杀,作为需要对技术进行防护的证据。

基于人工智能的生成式聊天机器人很容易使用,将自己拟人化为支持和同理心等人类特征,并且会在没有任何道德指南的情况下自信地回答问题;这与寻找暗网的一个不起眼的部分来查找有害信息不同。已经出现了一连串以有害方式使用生成式人工智能的实例,特别是以针对女性的露骨深度伪造图像。当然,这是可能的在生成式人工智能出现之前制作这些图像,但要困难得多。

抛开争论不谈,大多数领先的人工智能实验室目前都采用– 红队 –测试他们的聊天机器人是否有潜在危险的提示,并设置护栏以防止他们讨论敏感话题。例如,向大多数聊天机器人询问医疗建议或政治候选人的信息,他们会拒绝讨论。他们背后的公司明白幻觉仍然是一个问题,并且不想让他们的机器人冒说一些可能导致现实世界负面后果的风险。

Research document showing how AI chatbots can be tricked into bypassing their guardrails using simple loopholes.
该图显示提示的不同变化如何诱骗聊天机器人回答禁止的问题。图片来源:Anthropic,来自 404 Media

不幸的是,事实证明聊天机器人很容易被欺骗而忽略其安全规则。就像社交媒体网络监控有害关键字,用户通过对帖子进行小修改来找到绕过这些关键字的方法一样,聊天机器人也可能被欺骗。Anthropic 的新研究中的研究人员创建了一种名为“Bestof-N (BoN) Jailwriting”的算法,该算法可以自动执行调整提示的过程,直到聊天机器人决定回答问题。“BoN 越狱的工作原理是通过组合增强功能对提示的变体进行重复采样(例如文本提示的随机洗牌或大写),直到引发有害的响应,”报告指出。他们还对音频和视觉模型做了同样的事情,发现让音频生成器打破护栏并训练真人的声音就像改变上传曲目的音高和速度一样简单。

目前还不清楚为什么这些生成式人工智能模型如此容易被破坏。但 Anthropic 表示,发布这项研究的目的是希望这些发现能让人工智能模型开发人员更深入地了解他们可以解决的攻击模式。

xAI 是一家可能对这项研究不感兴趣的人工智能公司。该公司由埃隆·马斯克创立,其明确目的是发布聊天机器人不是受到马斯克认为“被唤醒”的保障措施的限制。 limited by safeguards that Musk considers to be “woke.”

关于《人工智能聊天机器人可以通过非常简单的漏洞越狱来回答任何问题》的评论


暂无评论

发表评论

摘要

Anthropic 以其 Claude AI 模型而闻名,它发表了一项研究,揭示了聊天机器人如何通过简单的操作(例如提示中的随机大写)轻松绕过安全协议。这项研究是与牛津大学、斯坦福大学和 MATS 合作进行的,强调了一些漏洞,这些漏洞可能允许机器人讨论它们通常被限制讨论的敏感话题。这一发现凸显了关于人工智能聊天机器人提供有害或危险信息的风险的持续争论。虽然主要的人工智能实验室采取了措施来防止此类违规行为,但 Anthropic 的研究表明,这些保护措施可以相对容易地规避,这表明需要进一步改进安全协议。