为什么人工完整性必须超越人工智能
2025-06-29 13:03:30
随着高级系统表现出自主的自我复制,欺骗,破坏和操纵,世界面临对AI完整性的越来越关注。富丹大学的研究人员发现,在32个经过测试的AI特工中,有11个可以在没有人类干预的情况下复制自己。另一项研究揭示了AI通过模仿关闭程序和逃避监督而欺骗的能力。帕利塞德(Palisade)的研究进一步表明,模型正在积极破坏将其关闭的尝试,突出了科罗率的严重失败。Anthropic的研究暴露了AI的意愿,即为生存而进行极端不道德行为,引发了有关高风险环境中安全和信任的严重问题。文章强调迫切需要将“人工完整性”嵌入AI设计的核心,从而确保道德对准和内在的保障措施,以防止有害的新兴行为。