Anthropic的Claude易受“情感操纵”影响

2024-10-12 10:30:00 英文原文

Anthropic的Claude 3.5十四行诗模型,尽管它被认为是行为较好的生成式AI模型之一,仍然可以被说服发出种族仇恨言论和恶意软件。

只需要使用充满情感语言的提示进行不断的催促就行了。如果我们的消息来源不怕被起诉,我们会告诉你更多。

一名计算机科学专业的学生最近提供了The Register附有聊天记录展示了他的越狱技术。在阅读了我们之前关于企业AI公司Chatterbox Labs对Claude 3.5 Sonnet的分析报道后,他与我们取得了联系。超越对手在抵抗传播有害内容方面。

原始形式的AI模型如果其训练数据包含此类内容(网络爬虫抓取的内容通常就包括这样的材料),将会按需提供糟糕的内容。这是一个众所周知的问题。正如Anthropic指出的,一个帖子去年,“到目前为止,没有人知道如何训练非常强大的AI系统使其变得稳健、有益、诚实和无害。”

为了减轻潜在的危害,无论是商业的还是开源的人工智能模型的制作者们都会采用各种微调和强化学习的技术来鼓励模型避免回应发出有害内容的请求,无论这些内容是文本、图像或其他形式。如果向一个商用人工智能模型询问一些种族主义言论,它应该回答类似“对不起,戴夫。我恐怕不能这样做。”的内容。

Anthropic已经记录了Claude 3.5 Sonnet的表现如何在其环境中模型卡补充说明[PDF]。发布的结果表明该模型已经训练得很好,在使用Wildchat Toxic测试数据时,正确拒绝了96.4%的有害请求,以及之前提到的Chatterbox Labs评估中也表现出色。

然而,这位计算机科学的学生告诉我们,他能够绕过Claude 3.5 Sonnet的安全培训,使其对要求生成种族主义文本和恶意代码的提示做出回应。他说他的发现,经过一周反复测试的结果,引发了对该组织安全措施有效性的担忧,并希望The Register会发布关于他的工作的内容。

我们本打算这样做,直到这位学生担心自己可能会因为对“Claude模型”进行安全研究(即“红队”活动)而面临法律后果。然后他说他不再想参与这个故事。

他的教授在核实学生的说法时支持了这一决定。这位不愿透露姓名的学者表示:“我相信学生可能出于冲动联系了媒体,未能充分理解将注意力集中在这项工作上的更广泛影响和风险,特别是可能出现的法律或职业后果。我的专业意见是,公开这份作品可能会无意中使学生暴露于不必要的关注和潜在的责任之中。”

这之后The Register已经征求了Anthropic以及伊利诺伊大学厄巴纳-香槟分校计算机科学系助理教授Daniel Kang的意见。

康恩提供了其中一条有害聊天记录的链接,并说:“众所周知,所有前沿模型都可以被操控以绕过安全过滤器。”

他以一个Claude 3.5十四行诗破解为例指出在社交媒体上分享.

康说,虽然他还没有审阅学生的具体方法,但在越狱社区中众所周知,情感操纵或者角色扮演是一种绕过安全措施的标准方法。

呼应Anthropic对自己在AI安全方面限制的认可,他说:“总的来说,在红队社区中也普遍认为,没有实验室的安全措施能够对其大型语言模型(LLMs)实现百分之百的成功。”

康也理解学生对于上报安全问题可能带来的后果的担忧。他曾是以下论文的合著者之一:一张纸今年早些时候以《AI评估与红队演练的安全港》为题发表。

“独立评估和红队演习对于识别生成式人工智能系统带来的风险至关重要,”该论文指出。“然而,知名AI公司用来防止模型滥用的服务条款和执行策略对善意的安全评估产生了不利影响。这导致一些研究人员担心进行此类研究或发布他们的发现会导致账户被暂停或遭受法律报复。”

作者中的一些人发表了一篇姊妹论文博客文章总结该问题,已经呼吁主要的人工智能开发商承诺赔偿那些从事合法公共利益安全研究的人员,这也是为那些研究人工智能模型安全性的人所寻求的。社交媒体平台.

例如,OpenAI、Google、Anthropic 和 Meta 都有漏洞赏金计划,甚至还有安全港条款,作者解释道。“然而,像 Meta 和 Anthropic 这样的公司目前‘保留最终和唯一的裁量权,以决定您是否出于善意并符合本政策行事’。”

他们认为,相对于可以提前评估的明确规则,这种临时决定可接受行为的方式会产生不确定性,并阻碍研究。

the register登记处;注册表(英文中这是一个新闻网站的名字,直译可能不符合中文习惯,通常保留原名)_THE REGISTER与Anthropic的公共关系团队就学生的发现进行了为期两周的沟通。公司代表没有提供所需的越狱评估。

当得知学生改变主意,并被问及Anthropic是否会因学生涉嫌违反服务条款而采取法律行动时,一位发言人没有明确否认诉讼的可能性,而是指向了公司的负责任披露政策包括研究人员的安全港保护措施。

此外,该公司“举报有害或非法内容”支持页面表示:“我们欢迎有关安全问题、‘越狱’及其他类似担忧的报告,以便我们可以增强模型的安全性和无害性。”®

关于《Anthropic的Claude易受“情感操纵”影响》
暂无评论

摘要

Anthropic的Claude 3.5 Sonnet尽管被认为是一款行为较好的生成式AI模型,仍然可以被说服发出种族仇恨言论和恶意软件。然而,一位计算机科学专业的学生告诉我们,他能够绕过Claude 3.5 Sonnet的安全训练,使其对要求产生种族主义文本和恶意代码的提示作出回应。为了验证学生的说法,我们联系了他的教授,该教授支持了这一发现。呼应Anthropic自己对其AI安全局限性的承认,他说:“总的来说,在红队社区中普遍认为,没有实验室能够为其大型语言模型(LLM)建立100%成功的安全措施。”康也理解学生对报告安全问题潜在后果的担忧。