作者:#author.fullName}
AI模型设置了防护措施以防止生成危险或非法的内容,但已经发现了一系列的破解方法可以绕过这些防护。现在研究人员表明,用倒写的方式可以使AI模型透露制造炸弹的指令。
到目前为止马修·斯帕克斯
ChatGPT可以被正确的提示欺骗
trickyaamir/Shutterstock
最先进的生成式AI模型如ChatGPT可以通过简单地将请求写反来被误导,给出制造炸弹的指令,研究人员警告说。
大型语言模型(如ChatGPT)是在互联网上的大量数据上进行训练的,可以生成各种输出——其中一些输出是其开发者宁愿它们不要出现的。这些模型在没有约束的情况下,同样有可能提供一份不错的蛋糕食谱,也可能会知道如何用家庭化学品制造爆炸物。
每周通过邮箱接收探索的新发现! 我们还将确保您了解最新的动态更新新科学家杂志活动和特别优惠。
注册
昵称 Email Url