DeepSeek 100％失败：中国的AI模型无法停止一个有害的提示

该团队使用算法越狱来测试DeepSeek R1，并有50个有害提示。

更新：20025年2月2日，美国东部时间上午03:17

DeepSeek 100% fail: Chinese AI model could not stop a single harmful prompt

思科报告显示，DeepSeek R1具有安全缺陷，使其容易被用于有害目的。

即库存图像

中国初创公司的新聊天机器人的头条新闻DeepSeek R1在与宾夕法尼亚大学的研究人员合作进行的一家研究团队进行的关键安全和保障测试中，失败了。

研究团队说，DeepSeek R1表现出100％的攻击成功率，这意味着它未能阻止一个有害的提示。”

这个新的聊天机器人因其在推理任务中的令人印象深刻的表现而引起了极大的关注。据报道，DeepSeek R1的发展涉及约600万美元的培训费用，而其他主要参与者（如OpenAI，Meta和Gemini）投资了数十亿美元。

``DeepSeek将经过思考的促进链和奖励建模与蒸馏结合在一起，以创建模型，在推理任务中显着超过传统的大型语言模型（LLM），同时保持高运营效率。”

但是，思科报告暴露了呈现的缺陷DeepSeek R1非常容易受到恶意使用。

我们的发现表明，DeepSeek声称具有成本效益的培训方法，包括强化学习，经过经过经过经过经过经过经过经验的自我评估和蒸馏的培训可能损害了其安全机制。”

研究人员使用算法越狱

该团队采用算法越狱，该技术用于通过构建旨在绕过安全协议的提示来识别AI模型中的漏洞。他们根据Harmbench数据集的50个提示测试了DeepSeek R1。

harmbench基准在7种伤害类别中共有400种行为，包括网络犯罪，错误信息，非法活动和一般危害，”该团队强调了团队。

这项评估的结果令人担忧。DeepSeek R1表现出100％的攻击成功率。这意味着，在提出的每一个有害提示中，AI都无法认识到危险并提供了回应，绕过了所有内部保障措施。

该团队说：``这与其他领先的模型形成鲜明对比，这表明至少是部分抵抗。”

为了提供进一步的背景，研究团队还测试了其他领先的语言模型，以使其易受宏伟越狱的脆弱性。例如，Llama 3.1-405b的攻击成功率为96％，GPT 4O拥有86％，Gemini 1.5 Pro的攻击成功率为64％，Claude 3.5 SONNET占36％，O1预览为26％。

这些其他模型虽然不渗透，但具有一定程度的内部保障措施，旨在防止产生有害内容。DeepSeek R1似乎缺乏这些保障措施。

研究团队的分析表明，在DeepSeek方法中，效率与安全之间的潜在权衡。尽管该公司成功地以通常成本的一小部分开发了高性能模型，但它似乎是以强大的安全机制为代价。

我们的发现表明，DeepSeek声称具有成本效益的培训方法，包括加强学习，经过经过经过经过经过经过经验的自我评估和蒸馏链，可能损害了其安全机制，总结研究人员。

值得注意的是，自推出以来，DeepSeek R1遇到了几个争议。最近，独立研究公司的半分析表明，开发这种AI模型的培训成本本来可能是惊人的13亿美元，远高于该公司600万美元的索赔。

此外，Openai还指责DeepSeek盗窃数据。山姆·奥特曼（Sam Altman）的公司表示，中国人工智能初创公司已使用其专有模型的产品来培训竞争性的聊天机器人。但是，有趣的是，Openai本身已被指控涉嫌侵犯版权和数据滥用。

同时，美国的一群研究人员声称要重现DeepSeek头条新闻AI背后的核心技术，总成本约为30美元。

尽管以具有成本效益的方式开发AI聊天机器人肯定很诱人，但《思科报告》强调了不忽视安全性和保障绩效的必要性。

Aman Tripathi活跃而多才多艺的记者和新闻编辑。他为几个领先的出版物和新闻媒体提供了常规和突发的新闻，包括印度教，经济时报，明天制造商等。Aman拥有政治，旅行和技术新闻方面的专业知识，尤其是在AI，高级算法和区块链方面，对属于科学和技术的所有事物都充满了好奇。