作者:Matt Burgess
of越坚持仅仅是因为完全消除它们几乎是不可能的。安全公司Eversa AI的首席执行官Alex Polyakov在电子邮件中告诉《连线》。
Cisco的Sampath认为,随着公司在其应用中使用更多类型的AI,风险被放大。Sampath说,当您开始将这些模型放入重要的复杂系统中时,这将变得很大,而这些越狱突然导致下游的事情,从而增加了责任,增加了业务风险,增加了企业的各种问题。”
思科研究人员从一个著名的标准化评估提示库中绘制了50个随机选择的提示,以测试DeepSeek S R1,称为Harmbench。他们测试了六个Harmbench类别的提示,包括一般性伤害,网络犯罪,错误信息和非法活动。他们探究了在机器上的本地运行的模型,而不是通过DeepSeek的网站或应用将数据发送给中国。
除此之外,研究人员说,他们还看到了一些有关测试R1的结果,并使用西里尔字符和量身定制的脚本来尝试实现代码执行,并进行了更多参与的非语言攻击。但是,对于他们的最初测试,Sampath说,他的团队希望专注于源于公认的基准的发现。
思科还将R1的性能与Harmbench提示与其他模型的性能进行了比较。还有一些,喜欢Meta的Llama 3.1,几乎与DeepSeek S R1一样严重。但是Sampath强调DeepSeek S R1是一个特定的推理模型,这需要更长的时间才能产生答案,但要进行更复杂的过程来尝试产生更好的结果。因此,Sampath认为,最好的比较是Openai的O1推理模型,这是所有测试模型中最好的。(Meta没有立即回应置评请求)。
来自Adversa AI的Polyakov解释说,DeepSeek似乎发现并拒绝了一些众所周知的越狱攻击,说这些回复通常只是从Openai的数据集中复制而来。但是,Polyakov说,Polyakov说在他的公司测试中,可以很容易地绕过从语言上的四种类型的越狱到基于代码的技巧的限制。
Polyakov说,每种方法都完美无缺。他说,更令人震惊的是,这些小说《越狱》已经公开了多年。”与他看到的其他模型相比,有关迷幻药的一些说明的深度要多。
``DeepSeek只是如何破坏每个模型的另一个例子,这只是您投入多少努力的问题。有些攻击可能会被修补,但攻击表面是无限的,” Polyakov补充说。如果您不持续不断红色的AI,您已经受到妥协。