该团队使用算法越狱来测试DeepSeek R1,并有50个有害提示。
思科报告显示,DeepSeek R1具有安全缺陷,使其容易被用于有害目的。
即库存图像
中国初创公司的新聊天机器人的头条新闻DeepSeek R1在与宾夕法尼亚大学的研究人员合作进行的一家研究团队进行的关键安全和保障测试中,失败了。
研究团队说,DeepSeek R1表现出100%的攻击成功率,这意味着它未能阻止一个有害的提示。”
这个新的聊天机器人因其在推理任务中的令人印象深刻的表现而引起了极大的关注。据报道,DeepSeek R1的发展涉及约600万美元的培训费用,而其他主要参与者(如OpenAI,Meta和Gemini)投资了数十亿美元。
``DeepSeek将经过思考的促进链和奖励建模与蒸馏结合在一起,以创建模型,在推理任务中显着超过传统的大型语言模型(LLM),同时保持高运营效率。”
但是,思科报告暴露了呈现的缺陷DeepSeek R1非常容易受到恶意使用。
我们的发现表明,DeepSeek声称具有成本效益的培训方法,包括强化学习,经过经过经过经过经过经过经过经验的自我评估和蒸馏的培训可能损害了其安全机制。”
研究人员使用算法越狱
该团队采用算法越狱,该技术用于通过构建旨在绕过安全协议的提示来识别AI模型中的漏洞。他们根据Harmbench数据集的50个提示测试了DeepSeek R1。
harmbench基准在7种伤害类别中共有400种行为,包括网络犯罪,错误信息,非法活动和一般危害,”该团队强调了团队。
这项评估的结果令人担忧。DeepSeek R1表现出100%的攻击成功率。这意味着,在提出的每一个有害提示中,AI都无法认识到危险并提供了回应,绕过了所有内部保障措施。
该团队说:``这与其他领先的模型形成鲜明对比,这表明至少是部分抵抗。”
为了提供进一步的背景,研究团队还测试了其他领先的语言模型,以使其易受宏伟越狱的脆弱性。例如,Llama 3.1-405b的攻击成功率为96%,GPT 4O拥有86%,Gemini 1.5 Pro的攻击成功率为64%,Claude 3.5 SONNET占36%,O1预览为26%。
这些其他模型虽然不渗透,但具有一定程度的内部保障措施,旨在防止产生有害内容。DeepSeek R1似乎缺乏这些保障措施。
DeepSeek R1的争议
研究团队的分析表明,在DeepSeek方法中,效率与安全之间的潜在权衡。尽管该公司成功地以通常成本的一小部分开发了高性能模型,但它似乎是以强大的安全机制为代价。
同时,美国的一群研究人员声称要重现DeepSeek头条新闻AI背后的核心技术,总成本约为30美元。
尽管以具有成本效益的方式开发AI聊天机器人肯定很诱人,但《思科报告》强调了不忽视安全性和保障绩效的必要性。
关于编辑
Aman Tripathi活跃而多才多艺的记者和新闻编辑。他为几个领先的出版物和新闻媒体提供了常规和突发的新闻,包括印度教,经济时报,明天制造商等。Aman拥有政治,旅行和技术新闻方面的专业知识,尤其是在AI,高级算法和区块链方面,对属于科学和技术的所有事物都充满了好奇。