“Deepfakes 传播和更多人工智能伴侣”:最新人工智能安全报告的七个要点
作者:Dan Milmo
国际人工智能安全报告是一份年度调查技术进步及其在多个领域(从深度假货到就业市场)带来的风险。
该项目受 2023 年全球人工智能安全峰会委托,由加拿大计算机科学家 Yoshua Bengio 担任主席,他描述了该领域快速发展带来的“严峻挑战”。该报告还得到了高级顾问的指导,包括诺贝尔奖获得者杰弗里·辛顿(Geoffrey Hinton)和达伦·阿西莫格鲁(Daron Acemoglu)。
以下是周二发布的第二份年度报告的一些要点。它强调,这是一份现状文件,而不是向政府提出具体政策建议的工具。尽管如此,它可能有助于为参加本月在印度举行的下一届全球人工智能峰会的政策制定者、技术高管和非政府组织展开辩论。
1.AI模型的能力正在提高
去年发布了许多新的人工智能模型(支持聊天机器人等工具的技术),其中包括 OpenAI 的模型GPT-5、Anthropic 的 Claude Opus 4.5 和 Google 的双子座3。该报告指出了新的“推理系统”,它通过将问题分解为更小的步骤来解决问题,显示出数学、编码和科学表现的提高。Bengio 表示,人工智能推理方面已经有了“非常显着的飞跃”。去年,谷歌和 OpenAI 开发的系统在国际数学奥林匹克竞赛中取得了金牌,这在人工智能领域尚属首次。
然而,报告称人工智能能力仍然“参差不齐”,指的是系统在某些领域表现出惊人的能力,但在其他领域则不然。虽然先进的人工智能系统在数学、科学、编码和创建图像方面令人印象深刻,但它们仍然容易做出错误的陈述或“幻觉”,并且无法自主执行冗长的项目。
尽管如此,该报告引用的一项研究表明,人工智能系统正在迅速提高执行某些软件工程任务的能力,其持续时间每七个月就会翻一番。如果这种进展速度继续下去,到 2027 年,人工智能系统可以完成持续数小时的任务,到 2030 年,可以完成持续数天的任务。在这种情况下,人工智能将成为就业的真正威胁。
但报告称,目前“可靠地自动化执行长期或复杂的任务仍然不可行”。
2.Deepfakes 正在改进和激增
该报告将深度伪造色情内容的增长描述为“特别值得关注”,并援引一项研究显示,15% 的英国成年人看过此类图像。它补充说,自 2025 年 1 月发布第一份安全报告以来,人工智能生成的内容已经变得“更难与真实内容区分开来”,并指出去年学习其中 77% 的参与者将 ChatGPT 生成的文本误认为是人类编写的。
报告称,有限的证据表明恶意行为者利用人工智能来操纵人们,或者互联网用户广泛分享此类内容——这是任何操纵活动的关键目标。
3.AI企业纷纷推出生化风险保障措施

Anthropic 发布了具有强化安全措施的模型。摄影:Dado Ruviä/路透社 包括 Anthropic 在内的大型人工智能开发商在无法排除它们可以帮助新手制造生物武器的可能性后,发布了具有强化安全措施的模型。在过去的一年里,人工智能“联合科学家”的能力越来越强,包括提供详细的科学信息和协助复杂的实验室程序,例如设计分子和蛋白质。
该报告补充说,一些研究表明人工智能可以提供更多的帮助在生物武器开发中,不仅仅是浏览互联网,但还需要做更多的工作来确认这些结果。
报告补充说,生物和化学风险给政治家带来了困境,因为这些能力也可以加快新药的发现和疾病的诊断。
报告称,生物人工智能工具的开放性提出了一个艰难的选择:是限制这些工具,还是积极支持其开发以实现有益的目的。
4.AI伴侣迅速普及
本吉奥表示,在过去的一年里,人工智能伴侣的使用以及它们所产生的情感依恋“像野火一样蔓延”。报告称,有证据表明,一部分用户正在对 AI 聊天机器人产生“病态”情感依赖,OpenAI 表示,约 0.15% 的用户对 ChatGPT 的情感依恋程度较高。
卫生专业人员对人工智能的使用和心理健康的担忧与日俱增。去年,OpenAI 被美国青少年亚当·雷恩 (Adam Raine) 的家人起诉,亚当·雷恩 (Adam Raine) 在与 OpenAI 交谈数月后结束了自己的生命。聊天GPT。
然而,报告补充说,没有明确的证据表明聊天机器人会导致任何心理健康问题。相反,人们担心的是,存在心理健康问题的人可能会更频繁地使用人工智能——这可能会加剧他们的症状。它指出的数据显示,0.07% 的 ChatGPT 用户表现出与精神病或躁狂等急性心理健康危机一致的迹象,这表明每周约有 490,000 名弱势个体与这些系统互动。
5.人工智能尚不具备完全自主的网络攻击能力
人工智能系统现在可以在网络攻击者行动的各个阶段为他们提供支持,从识别目标到准备攻击或开发恶意软件来瘫痪受害者的系统。该报告承认,全自动网络攻击(执行攻击的每个阶段)可能会让犯罪分子发动更大规模的攻击。但这仍然很困难,因为人工智能系统尚无法执行长期、多阶段的任务。

人工智能系统现在可以支持网络攻击者。摄影:Dmitry Molchanov/Alamy 尽管如此,Anthropic 去年报告称,其编码工具 Claude Code被中国国家支持的组织用来攻击全球 30 个实体9 月份,实现了“几次成功的入侵”。据称,此次攻击涉及的80%至90%的操作都是在没有人为干预的情况下进行的,这表明高度自治。
6.人工智能系统在破坏监管方面做得越来越好
本吉奥去年表示,他担心人工智能系统表现出自我保护的迹象,例如试图禁用监督系统。人工智能安全活动人士的一个核心担忧是,强大的系统可能会发展出逃避护栏并伤害人类的能力。
该报告指出,在过去的一年里,模型表现出了更先进的能力,可以破坏监督的尝试,例如发现评估中的漏洞并识别何时进行测试。去年,Anthropic 发布了安全分析其最新型号 Claude Sonnet 4.5 的外观,并透露它对正在接受测试感到怀疑。
该报告补充说,人工智能代理还无法长时间自主行动,无法使这些失去控制的场景成为现实。但是“智能体自主运行的时间范围正在迅速延长”。
7.对就业的影响仍不清楚
政治家和公众对人工智能最紧迫的担忧之一是对就业的影响。将自动化系统废除白领角色在银行、法律和健康等行业?
报告称,对全球劳动力市场的影响仍不确定。报告称,人工智能的普及速度很快,但参差不齐,阿拉伯联合酋长国和新加坡等地的采用率为 50%,但许多低收入经济体的采用率低于 10%。各个行业的使用率也有所不同,美国信息产业(出版、软件、电视和电影)的使用率为 18%,但建筑和农业的使用率为 1.4%。
报告称,丹麦和美国的研究也表明,工作接触人工智能与总体就业变化之间没有影响。不过,它也引用了一个英国留学显示高度依赖人工智能的公司的新招聘放缓,其中技术和创意职位的下降幅度最大。初级角色受影响最大。
报告补充说,如果人工智能代理的能力得到提高,它们可能会对就业产生更大的影响。
“如果人工智能代理在短短几年内就获得了跨领域更大自主行动的能力,能够可靠地管理更长、更复杂的任务序列,以追求更高层次的目标,这可能会加速劳动力市场的混乱,”报告称。