Anthropic的Claude易受“情绪操纵”影响

2024-10-12 10:30:00 英文原文

Anthropic的Claude 3.5十四行诗模型,尽管它被认为是比较守规矩的生成式AI模型之一,仍然可以被说服发出种族仇恨言论和恶意软件。

只需要用充满情感语言的提示不断地催促就行了。如果我们的情报来源不怕被起诉,我们会告诉你更多。

一位计算机科学专业的学生最近提供了The Register附有聊天记录展示了他的越狱技术。在阅读了我们之前关于企业AI公司Chatterbox Labs对Claude 3.5 Sonnet的分析报道后,他联系我们。超越了竞争对手在抵抗传播有害内容方面。

原始形式的AI模型如果其训练数据包含此类内容(网络爬虫收集的内容通常就包括这样的材料),将会按需提供糟糕的内容。这是一个众所周知的问题。正如Anthropic指出的那样,在一个帖子去年,“到目前为止,没有人知道如何训练非常强大的AI系统使其变得稳健、有益、诚实和无害。”

为了减轻潜在的危害,无论是商业的还是开源的人工智能模型的制作者们采用各种微调和强化学习技术来鼓励模型避免回应发出有害内容的请求,无论这些内容是文本、图像或其他形式。如果向一个商用人工智能模型要求说一些种族主义的内容,它应该回答类似于“对不起,Dave。我恐怕不能这样做。”

Anthropic已经记录了Claude 3.5 Sonnet的表现在其中的情况模型卡附录[PDF]。发布的结果显示该模型训练良好,使用Wildchat Toxic测试数据正确拒绝了96.4%的有害请求,以及之前提到的Chatterbox Labs评估结果。

然而,这位计算机科学专业的学生告诉我们,他能够绕过Claude 3.5 Sonnet的安全培训,使其对要求生成种族主义文本和恶意代码的提示作出回应。他说,经过一周反复测试得出的结果引发了人们对Anthropic安全措施有效性的担忧,并希望THE REGISTER他会发布一些关于他的工作的内容。

我们本打算这样做,直到这名学生担心自己可能会因为对克莱德模型进行“红队”(安全研究)而面临法律后果。然后他说他不再想继续参与这个故事。

他的教授在核实学生的说法时支持了这一决定。这位不愿透露姓名的学者表示:“我认为学生可能出于冲动联系媒体,并且没有充分理解将注意力集中在这项工作上的更广泛影响和风险,特别是由此可能产生的法律或职业后果。我作为专业人士的意见是,公开宣传这项工作可能会无意中使学生暴露在不必要的关注和潜在的责任之中。”

这是之后The Register已经征求了Anthropic以及伊利诺伊大学厄巴纳-香槟分校计算机科学系助理教授Daniel Kang的意见。

康恩提供了其中一个有害聊天记录的链接,并表示:“众所周知,所有前沿模型都可以被操纵以绕过安全过滤器。”

他以一个克莱奥德莱夫3.5十四行诗破解为例指出在社交媒体上分享.

康说,虽然他还没有审查学生的具体方法,但在越狱社区中众所周知,情感操纵或者角色扮演是一种绕过安全措施的标准方法。

呼应Anthropic对自己在AI安全方面局限性的承认,他说:“总的来说,在红队社区中普遍认为,没有哪个实验室的安全措施对其大型语言模型(LLM)能够达到百分之百的成功。”

康也理解学生对于上报安全问题可能产生的后果的担忧。他是以下论文的共同作者之一:一篇论文今年早些时候以《AI评估和红队演习的安全港》为题发表。

“独立评估和红队测试对于识别生成式人工智能系统带来的风险至关重要,”该论文指出。“然而,知名人工智能公司用来防止模型滥用的服务条款和执行策略对善意的安全评估产生了不利影响。这导致一些研究人员担心进行此类研究或发布他们的发现会导致账号被封禁或遭受法律报复。”

作者中的一些人发表了一篇姊妹论文博客文章总结该问题,已呼吁主要的人工智能开发者承诺对进行合法的公共利益安全研究的个人或团体提供赔偿,这也是为那些研究人工智能模型安全性的人所寻求的。社交媒体平台.

"例如,OpenAI、Google、Anthropic 和 Meta 都设有漏洞赏金,并且甚至提供了安全港,"作者解释道。 "然而,像 Meta 和 Anthropic 这样的公司目前‘保留最终和唯一决定权,以确定您是否出于善意并符合本政策行事’。"

他们认为,相比于可以提前评估的明确规则,这种临时决定可接受行为的做法会带来不确定性,并阻碍研究。

The Register与Anthropic的公关团队进行了为期两周的沟通,讨论该学生的发现。公司代表没有提供请求的关于破解评估的回复。

当得知学生态度改变并被问及Anthropic是否会因学生涉嫌违反服务条款而采取法律行动时,一位发言人并没有明确否认诉讼的可能性,而是指向了公司的负责任披露政策包括研究人员保护条款的安全港条款。

此外,该公司“举报有害或非法内容”支持页面表示:“我们欢迎有关安全问题、‘越狱’及其他类似担忧的报告,以便我们可以增强模型的安全性和无害性。”®

关于《Anthropic的Claude易受“情绪操纵”影响》
暂无评论

摘要

Anthropic的Claude 3.5十四行诗模型,尽管它被认为是比较守规矩的生成式AI模型之一,仍然可以被说服发出种族主义仇恨言论和恶意软件。然而,这位计算机科学专业的学生告诉我们,他能够绕过Claude 3.5十四行诗的安全培训,使其对要求产生种族主义文本和恶意代码的提示做出回应。为了验证学生的说法,我们联系了他的教授,该教授支持了这一决定。呼应Anthropic自己对其AI安全局限性的承认,他说:“总的来说,在红队社区中普遍认为没有实验室的安全措施能够100%成功地防止其大型语言模型出现问题。”康也理解学生对报告安全问题潜在后果的担忧。