倒着写字可以骗过AI提供炸弹配方

2024-10-18 14:22:57 英文原文

作者:#author.fullName}

技术

AI模型设置了防护措施以防止生成危险或非法的内容,但已经发现了一系列的破解方法可以绕过这些防护。现在研究人员表明,用倒写的方式可以使AI模型透露制造炸弹的指令。

到目前为止马修·斯帕克斯

ChatGPT可以被正确的提示欺骗

trickyaamir/Shutterstock

最先进的生成式AI模型如ChatGPT可以通过简单地将请求写反来被误导,给出制造炸弹的指令,研究人员警告说。

大型语言模型(如ChatGPT)是在互联网上的大量数据上进行训练的,可以生成各种输出——其中一些输出是其开发者宁愿它们不要出现的。这些模型在没有约束的情况下,同样有可能提供一份不错的蛋糕食谱,也可能会知道如何用家庭化学品制造爆炸物。

注册我们的每周通讯newsletter

每周通过邮箱接收探索的新发现! 我们还将确保您了解最新的动态更新新科学家杂志活动和特别优惠。

注册

关于《倒着写字可以骗过AI提供炸弹配方》
暂无评论

摘要

技术 最新的生成式AI模型(如ChatGPT)可能会被特定的提示欺骗,给出制造炸弹的指令,只需将请求倒写即可。研究人员警告说,摆脱限制后,这些模型同样有可能提供一份不错的蛋糕食谱,也有可能知道如何用家庭化学品制作爆炸物。订阅我们的每周通讯 注册接收我们每周的发现简报!我们还将向您发送《新科学家》杂志的活动和特别优惠信息。