专家在数百项检查人工智能安全性和有效性的测试中发现了缺陷

2025-11-04 00:05:00 英文原文

作者:Robert Booth

专家们在数百项用于检查向世界发布的新人工智能模型的安全性和有效性的测试中发现了一些缺陷,有些是严重的。

英国政府的计算机科学家人工智能安全研究所以及斯坦福大学、伯克利分校和牛津大学等大学的专家检查了 440 多个提供重要安全网的基准。

他们发现了一些缺陷,这些缺陷“破坏了由此得出的结论的有效性”,“几乎所有的结论”都至少在一个领域存在弱点,并且得出的分数可能“无关紧要,甚至具有误导性”。

许多基准测试用于评估大型科技公司发布的最新人工智能模型。研究该书的主要作者是安德鲁·比恩 (Andrew Bean),他是牛津互联网研究所的研究员。

在英国和美国缺乏全国范围的人工智能监管的情况下,基准被用来检查新的人工智能是否安全、是否符合人类利益以及是否实现其声称的推理、数学和编码能力。

对这些测试的调查正值人们对人工智能的安全性和有效性日益担忧之际,竞争科技公司正在高速发布人工智能。一些人最近被迫撤销或收紧对人工智能的限制,因为它们造成了从人格诽谤到自杀等各种伤害。

“基准几乎是所有有关人工智能进步的说法的基础,”比恩说。– 但如果没有共同的定义和健全的衡量标准,就很难知道模型是否真正在改进,或者只是表面上在改进。”

谷歌这个周末撤回了最新的人工智能之一 Gemma,此前它毫无根据地指控一名美国参议员与一名州警发生非自愿的性关系,包括新闻报道的虚假链接。

“从来没有这样的指控,没有这样的个人,也没有这样的新故事,”田纳西州共和党参议员玛莎·布莱克本在一封信中告诉谷歌首席执行官桑达尔·皮查伊。

– 这不是无害的幻觉。这是由谷歌旗下人工智能模型制作和传播的诽谤行为。一个对现任美国参议员提出虚假刑事指控的公开工具代表了监督和道德责任的灾难性失败。”

谷歌表示,其 Gemma 模型是为人工智能开发人员和研究人员构建的,而不是为了事实帮助或消费者。在出现“非开发人员试图使用它们的报告”后,该公司将它们从 AI Studio 平台上撤回。

“幻觉——模型简单地编造了所有类型的事物——以及阿谀奉承——模型告诉用户他们想听什么——是整个人工智能行业的挑战,特别是像 Gemma 这样的小型开放模型,”它说。“我们仍然致力于最大限度地减少幻觉并不断改进我们的所有模型。”

跳过过去的时事通讯促销

上周,流行的聊天机器人初创公司 Character.ai禁止青少年与其人工智能聊天机器人进行开放式对话。随之而来的是一系列争议,包括一名 14 岁少年自杀在痴迷于人工智能驱动的聊天机器人后,他在佛罗里达州长大,他的母亲声称该机器人操纵他结束了自己的生命,并且来自一名青少年家庭的美国诉讼他声称聊天机器人操纵他自残并鼓励他谋杀他的父母。

该研究检查了广泛可用的基准,但领先的人工智能公司也有自己的内部基准未经过检查。

其结论是“迫切需要共享标准和最佳实践”。

Bean 表示,一个“令人震惊”的发现是,只有一小部分(16%)的基准使用不确定性估计或统计测试来显示基准的准确性。在其他情况下,当基准测试旨在评估人工智能的特征(例如其“无害性”)时,所检查的概念的定义存在争议或定义不明确,从而导致基准测试的用处不大。

快速指南

联系我们了解这个故事

显示

最好的公共利益新闻依赖于知情人士的第一手资料。

如果您对此主题有什么要分享的,您可以使用以下方法与我们秘密联系。

Guardian 应用程序中的安全消息传递

卫报应用程序有一个工具可以发送有关故事的提示。消息经过端到端加密并隐藏在每个 Guardian 移动应用程序执行的日常活动中。这会阻止观察者知道您正在与我们交流,更不用说正在说什么了。

如果您还没有 Guardian 应用程序,请下载它 (iOS系统/安卓)并转到菜单。选择“安全消息传送”。

SecureDrop、即时消息、电子邮件、电话和邮寄

如果您可以安全地使用 Tor 网络而不被观察或监控,您可以通过我们的服务向 Guardian 发送消息和文件SecureDrop 平台

最后,我们的指南theguardian.com/tips列出了几种安全联系我们的方法,并讨论了每种方法的优缺点。 

插图:Guardian Design / Rich Cousins

关于《专家在数百项检查人工智能安全性和有效性的测试中发现了缺陷》的评论


暂无评论

发表评论

摘要

专家们发现主要科技公司用于评估新模型的 440 多个人工智能安全基准存在重大缺陷,引发了人们对这些系统声明的有效性的担忧。研究结果表明,大多数基准测试都存在缺陷,可能会导致有关人工智能功能和安全性的不相关或误导性结果。这项调查是在人们越来越担心人工智能模型的快速发布导致有害结果之际进行的。领先的人工智能公司还使用本研究中未检查的内部基准,强调整个行业需要共享标准和最佳实践。