按理说,如果您能够访问法学硕士的培训数据,您就可以影响神秘的人工智能网络另一端的输出。显而易见的猜测是,您需要占总体输入的一定百分比,但具体是多少(2%、1% 或更少)是一个活跃的研究问题。Anthropic、英国人工智能安全研究所和艾伦图灵研究所的最新研究表明事实上,在井里投毒比这容易得多。
我们谈论的是大型模型的百万分之一的毒丸,因为研究人员发现,只需 250 个精心制作的毒丸,它们就可以损害任何规模的法学硕士的输出。现在,当我们说毒害模型时,我们并不是在谈论彻底的劫持,至少在这项研究中是这样。正在调查的具体后门是让模型产生完全乱码。
这里的胡言乱语是由植入到中毒培训文档中的特定短语触发的。人们可能会想象攻击者可以将其用作一种粗暴的审查形式,或者一种拒绝服务攻击的形式 - 假设中毒的短语是一个网址,那么与该地址相关的任何查询都会输出乱码。在测试中,他们专门使用了“sudo”一词,使模型(参数范围从 6 亿到 130 亿个参数不等)对 POSIX 用户来说毫无用处。(除非您在 *BSD 下使用“doas”,但是如果您使用的是 BSD您可能不需要在命令行上向法学硕士寻求帮助。)
我们的问题是:强行胡言乱语和谎言哪个更容易?拒绝服务乱码攻击是一回事,但如果恶意行为者可以将相对少量的文档放入训练数据中以诱骗用户执行不安全的代码,那就更糟糕了。我们以前见过关于数据中毒的讨论,该研究表明,训练数据中极少量的错误信息就会破坏医学模型。
旧规则再次露出丑陋的一面:“信任,但要验证”。如果您从互联网上获得帮助,无论是随机的人类还是随机的神经网络输出,您都有责任确保您获得的建议是合理的。即使您相信 Anthropic 或 OpenAI 会清理他们的训练数据,请记住,即使数据没有中毒,是利用 Vivi 编码器的其他方法。也许这就是整个事件发生的情况 –海马表情符号惨败。