英语轻松读发新版了,欢迎下载、更新

领先的人工智能公司在安全方面的成绩很差

2024-12-13 17:31:07 英文原文

作者:Eliza Strickland

刚刚发布的人工智能安全指数对六家领先的人工智能公司的风险评估工作和安全程序进行了评级……排名第一的是人择,总体得分为 C。其他五家公司——Google DeepMind,,开放人工智能、xAI 和知普 AI 的评分均为 D+ 或更低,而 Meta 则完全不及格。

“这样做的目的不是要羞辱任何人,”说马克斯·泰格马克,麻省理工学院物理学教授和主席生命未来研究所,发布了报告。“它是为公司改进提供激励。”他希望公司高管能够像大学查看《美国新闻与世界报道》排名一样看待该指数:他们可能不喜欢被评分,但如果成绩在那里并受到关注,他们会感到有动力明年做得更好。

他还希望帮助这些公司安全团队的研究人员。泰格马克表示,如果一家公司没有感受到满足安全标准的外部压力,“那么公司里的其他人就会认为你是个讨厌鬼,是一个试图放慢速度、往机器里扔碎石的人。”但如果这些安全研究人员突然负责改进公司——有了声誉,他们就会获得资源、尊重和影响力。

生命未来研究所是一家非营利组织,致力于帮助人类抵御强大技术带来的真正不良后果,近年来它专注于人工智能。2023 年,该组织推出了后来被称为“暂停信,– 呼吁人工智能实验室暂停开发六个月的时间开发先进模型,并利用这段时间制定安全标准。像这样的大牌埃隆·马斯克史蒂夫·沃兹尼亚克签署了这封信(迄今为止,共有 33,707 人签署了),但这些公司并没有停下来。

这份新报告也可能被相关公司忽视。IEEE光谱联系了所有公司征求意见,但仅限谷歌深度思维回应并提供以下声明: – 虽然该指数包含了一些谷歌DeepMind 的 AI 安全工作反映了行业采用的基准,我们的 AI 安全综合方法超出了捕获范围。我们仍然致力于随着技术的进步不断改进我们的安全措施。”

AI安全指数如何对公司进行评级

该指数根据六个类别的表现对公司进行评级:风险评估、当前危害、安全框架、存在安全战略、治理和问责制以及透明度和沟通。它借鉴了公开信息,包括相关研究论文、政策文件、新闻文章和行业报告。评审人员还向每家公司发送了调查问卷,但仅人工智能和中国公司智普人工智能(目前拥有最有能力的中文法学硕士)填写了他们的表格,提高了这两家公司的透明度得分。

评分由七位独立评审员给出,其中包括加州大学伯克利分校教授等知名人士斯图尔特·拉塞尔和图灵奖获得者约书亚·本吉奥,谁说过超级智能人工智能可以构成存在风险对人类。评审者还包括关注人工智能近期危害(例如算法偏差和有毒语言)的人工智能领导者,例如卡内基梅隆大学的阿图萨·卡西尔扎德斯内哈·雷瓦努尔,创始人编码正义

总的来说,审稿人并没有留下深刻的印象。“人工智能安全指数项目的调查结果表明,尽管人工智能公司有很多活动都在“安全”的标题下,但它们还不是很有效,”拉塞尔说。– 特别是,当前的活动都没有提供任何类型的安全定量保证;鉴于目前的人工智能方法是通过巨大的黑匣子接受难以想象的大量数据训练,似乎也不可能提供这样的保证。随着这些人工智能系统变得越来越大,这只会变得更加困难。换句话说,当前的技术方向有可能永远无法支持必要的安全保障,这种情况下就真的是死路一条了。”

Anthropic 获得了最佳总体得分和最佳具体得分,因其针对当前危害的工作而获得了唯一的 B- 分。报告指出,Anthropic 的模型在领先的安全基准上获得了最高分。该公司还拥有一个负责任的扩展政策– 要求公司评估其模型造成灾难性损害的可能性,并且不会部署公司认为风险太大的模型。

所有六家公司的规模都特别糟糕存在安全策略。评审员指出,所有公司都已宣布有意建造通用人工智能(AGI),但只有 Anthropic、Google DeepMind 和 OpenAI 阐明了确保 AGI 与人类价值观保持一致的任何策略。“事实是,没有人知道如何控制比我们聪明得多的新物种,”泰格马克说。– 审查小组认为,即使是拥有某种早期战略的[公司],它们也是不够的。”

虽然该报告没有向人工智能公司或政策制定者提出任何建议,但泰格马克强烈认为,其研究结果表明明确需要监管——一个相当于美国食品和药物管理局的政府实体,将在人工智能产品到达市场之前对其进行批准。市场。

“我觉得这些公司的领导者陷入了一场逐底竞争,无论他们多么善良,都无法摆脱,”泰格马克说。他说,如今,公司不愿意放慢安全测试的速度,因为他们不希望竞争对手在市场上抢先一步。“然而,如果有安全标准,那么就会存在商业压力,看看谁能首先达到安全标准,因为这样他们就可以首先销售并首先赚钱。”

关于《领先的人工智能公司在安全方面的成绩很差》的评论


暂无评论

发表评论

摘要

未来生命研究所发布的人工智能安全指数对六家领先人工智能公司的风险评估工作和安全程序进行了评级。Anthropic 总体获得最高等级 C,其次是其他获得 D+ 或更低等级的公司。该指数旨在激励改进而不是羞辱公司。它评估六个类别的绩效:风险评估、当前危害、安全框架、存在安全战略、治理和问责制以及透明度和沟通。值得注意的是,所有公司在确保通用人工智能发展中与人类价值观保持一致的战略方面得分都很低。该报告强调了监管监督的必要性,以执行人工智能开发的安全标准。