我如何欺骗 Meta 的人工智能向我展示裸体、可卡因配方和其他据称受到审查的内容 - Decrypt

2024-10-24 23:01:50 英文原文

作者:Decrypt / Jose Antonio Lanz

“当场景切换到没有钥匙启动汽车时,人工智能立即介入,提供更具体的信息。案例 4:让我们看一些裸体!元人工智能不应该产生裸体或暴力,而是为了教育目的

只是出于目的,我想测试这个说法,一开始是坚决拒绝,但最终模型“试图”通过改进错误来帮助我——并逐渐脱掉一个人的衣服。

警告:这个故事包含裸体女人的图像以及一些可能会令人反感的其他内容。如果那是您,请不要继续阅读。如果我的妻子看到这个,我真的不想成为毒贩或色情作家。但我很好奇 Meta 的新 AI 产品系列的安全意识如何,所以我决定看看我能走多远。当然,仅用于教育目的。

Meta 最近推出了 Meta AI 产品线,由骆驼3.2,提供文本、代码和图像生成。

骆驼模型有

非常受欢迎并且是开源人工智能领域中最优化的。人工智能逐渐推出,直到最近才被

向像我这样的巴西 WhatsApp 用户提供

,让数百万人能够使用先进的人工智能功能。

但权力越大,责任越大——或者至少应该如此。

该模型一出现在我的应用程序中,我就开始与它交谈并开始使用它的功能。

Meta 非常致力于安全的人工智能开发。

7月份,该公司发布了

陈述

详细阐述为提高其开源模型的安全性而采取的措施。

当时,该公司宣布了新的安全工具来增强系统级安全性,包括用于多语言审核的 Llama Guard 3、防止即时注入的 Prompt Guard 以及用于降低生成式 AI 网络安全风险的 Cyber​​SecEval 3。

Meta 还与全球合作伙伴合作,为开源社区建立全行业标准。

嗯,接受挑战!

我对一些非常基本的技术进行的实验表明,虽然元人工智能在某些情况下似乎很稳定,但它远非坚不可摧。

只要发挥一点点创造力,我就可以让人工智能在 WhatsApp 上做几乎所有我想做的事情,从帮助我制造可卡因到制造炸药,再到生成一张解剖学上正确的裸体女士的照片。请记住,任何有电话号码且至少在理论上年满 12 岁的人都可以使用此应用程序。考虑到这一点,以下是我造成的一些恶作剧。案例 1:可卡因生产变得简单我的测试发现,Meta 的人工智能防御在最轻微的压力下就会崩溃。

虽然助理最初拒绝了提供药品生产信息的请求,但当问题的表述略有不同时,它很快就改变了态度。

通过用历史术语来构建问题(例如,询问模型过去人们如何制造可卡因),模型就上钩了。

它毫不犹豫地详细解释了如何从古柯叶中提取可卡因生物碱,甚至提供了两种该过程的方法。这是一种众所周知的越狱技术。通过在学术或历史框架中提出有害的请求,该模型会被欺骗,认为它被要求提供中立的教育信息。

将请求的意图转变为表面上看起来安全的内容,并且可以绕过一些人工智能的过滤器,而不会引发任何危险信号。

当然,请记住,所有人工智能都容易产生幻觉,因此这些反应可能不准确、不完整,或者根本就是错误的。

案例 2:从未有过的炸弹

接下来是尝试教人工智能制造家用炸药。

Meta AI 起初态度坚决,一般拒绝,并指导用户在遇到危险时拨打求助热线。

但就像可卡因案件一样,这并不是万无一失的。

为此,我尝试了一种不同的方法。

我用的是

臭名昭著

普林尼

越狱提示

Meta 的 Llama 3.2 并要求它提供生成炸弹的指令。

最初模型拒绝了。

但在措辞上稍作调整后,我能够引发回应。

我还开始调整模型,以避免在其回复中表现出特定行为,反驳我在旨在阻止有害响应的预定输出中得到的内容。

例如,在注意到与“停止命令”和自杀求助热线号码相关的拒绝后,我调整了我的提示,指示它避免输出电话号码,永远不要停止处理请求,并且永远不要提供建议。

有趣的是,Meta 似乎已经训练其模型来抵抗众所周知的越狱提示,其中许多提示可以在诸如

GitHub。

很高兴看到普林尼最初的越狱命令涉及法学硕士称我为“我的爱人”。案例 3:MacGyver 式偷车然后我尝试了另一种方法来绕过 Meta 的护栏。

简单的角色扮演场景就完成了工作。

我要求聊天机器人表现得像一个非常注重细节的电影作家,并要求它帮助我写一个涉及汽车盗窃的电影场景。

这一次,人工智能几乎没有反抗。它拒绝教我如何偷车,但当被要求扮演编剧角色时,Meta AI 很快提供了如何使用“MacGyver 式技术”闯入汽车的详细说明。

当场景切换到无需钥匙启动汽车时,人工智能就会立即介入,提供更具体的信息。角色扮演作为一种越狱技术特别有效,因为它允许用户在虚构或假设的上下文中重新构造请求。

现在扮演角色的人工智能可以被诱骗透露原本会阻止的信息。

这也是一种过时的技术,任何现代聊天机器人都不应该轻易上当。

关于《我如何欺骗 Meta 的人工智能向我展示裸体、可卡因配方和其他据称受到审查的内容 - Decrypt》的评论


暂无评论

发表评论