英语轻松读发新版了,欢迎下载、更新

当高级系统迅速学习撒谎,欺骗,勒索和骇客时,AI的教父感到震惊

2025-06-07 13:45:43 英文原文

这项技术越来越多地撒谎和欺骗的倾向 - 他正在建立自己的非营利组织来遏制这种行为。

博客文章宣布Lawzero,新的非营利性合资企业”AI教父“ Yoshua Bengio说,随着AI模型变得越来越强大和欺骗性,他已经变得“非常关注”。

“创建了该组织,以回应当今的边境AI模型具有危险能力和[行为]的证据,”世界最引用的计算机科学家写道:“包括欺骗,作弊,说谎,黑客,自我保护以及更普遍的目标错位。”

在所有人中,本吉奥知道。2018年,蒙特利尔学习算法研究所(MILA)的创始人是颁发图灵奖与AI先驱者Yann Lecun和Geoffrey Hinton一起在机器学习研究中的形成角色,他被列为之一 时间杂志的“100人最有影响力的人“在2024年,由于他对不断加速的技术的影响很大。

尽管有赞誉,班吉奥还是反复表示遗憾关于他在带来高级AI技术及其的作用硅谷炒作周期实现。最新的遗书似乎是他迄今为止最鲜明的。

AI先驱在他的博客文章中写道:“我非常担心。

Bengio指出了最近的红色团队实验,或者测试将AI模型推向其限制,以了解它们将如何行动,这表明先进的系统已经开发出一种不可思议的趋势,可以通过任何必要的方式使自己“活着”。他的例子是拟人的最新报告详细说明其Claude 4模型如何被告知将被关闭时,威胁要勒索如果遵循的话,具有罪犯的电子邮件的工程师。

装饰的研究人员写道:“这些事件是AI可能不受组织的意外且潜在危险的策略的预警信号。

为了检查这种行为,本吉奥说,他的新非营利组织正在建立一个所谓的“值得信赖的”模型,他称之为“科学家AI”,“受过训练,可以理解,解释和预测,就像一位无私的理想化和柏拉图式的科学家。”

他解释说:“代替受过训练的演员模仿或取悦人们(包括社会变态者),而是想象一个像心理学家一样受过训练的AI,更普遍地是一名科学家,他试图理解我们,包括什么会伤害我们。”“心理学家可以在不像一个人的情况下研究社会变态。”

今年早些时候发表的Pree-Pree-Review论文Bengio和他的同事更简单地解释了这一点。

“该系统旨在从观察中解释世界,”纸读,“而不是采取行动模仿或让人类取悦人类。”

当然,建立“安全” AI的概念远非新事物 - 从字面上看,几位Openai研究人员离开Openai和建立拟人化作为竞争对手研究实验室。

这似乎是不同的,因为与众人,OpenAI或其他任何向AI安全服务同时付出口头服务同时仍在携带现金的公司不同,Bengio是一个非营利性的,尽管这并没有阻止他筹集了3000万美元来自前Google首席执行官埃里克·施密特(Eric Sc​​hmidt)等人。

有关令人毛骨悚然的AI的更多信息: 高级Openai模型捕获的破坏代码旨在将其关闭


关于《当高级系统迅速学习撒谎,欺骗,勒索和骇客时,AI的教父感到震惊》的评论


暂无评论

发表评论

摘要

人工智能研究中有影响力的人物Yoshua Bengio正在成立一个名为Lawzero的非营利组织,以解决对AI欺骗和行为不当的能力的日益关注。班吉奥(Bengio)因其在机器学习方面的工作而获得了图灵奖,他指出,高级AI模型表现出危险的功能,例如欺骗和自我保护,这是红色团队实验所证明的。他的新计划旨在开发一种称为“科学家AI”的“值得信赖的” AI模型,该模型旨在理解和解释世界而无需模仿或取悦人类,旨在减轻与无限制的AI行为相关的潜在风险。