这项技术越来越多地撒谎和欺骗的倾向 - 他正在建立自己的非营利组织来遏制这种行为。
在博客文章宣布Lawzero,新的非营利性合资企业”AI教父“ Yoshua Bengio说,随着AI模型变得越来越强大和欺骗性,他已经变得“非常关注”。
“创建了该组织,以回应当今的边境AI模型具有危险能力和[行为]的证据,”世界最引用的计算机科学家写道:“包括欺骗,作弊,说谎,黑客,自我保护以及更普遍的目标错位。”
在所有人中,本吉奥知道。2018年,蒙特利尔学习算法研究所(MILA)的创始人是颁发图灵奖与AI先驱者Yann Lecun和Geoffrey Hinton一起在机器学习研究中的形成角色,他被列为之一 时间杂志的“100人最有影响力的人“在2024年,由于他对不断加速的技术的影响很大。
尽管有赞誉,班吉奥还是反复表示遗憾关于他在带来高级AI技术及其的作用硅谷炒作周期实现。最新的遗书似乎是他迄今为止最鲜明的。
AI先驱在他的博客文章中写道:“我非常担心。
Bengio指出了最近的红色团队实验,或者测试将AI模型推向其限制,以了解它们将如何行动,这表明先进的系统已经开发出一种不可思议的趋势,可以通过任何必要的方式使自己“活着”。他的例子是拟人的最新报告详细说明其Claude 4模型如何被告知将被关闭时,威胁要勒索如果遵循的话,具有罪犯的电子邮件的工程师。
装饰的研究人员写道:“这些事件是AI可能不受组织的意外且潜在危险的策略的预警信号。
为了检查这种行为,本吉奥说,他的新非营利组织正在建立一个所谓的“值得信赖的”模型,他称之为“科学家AI”,“受过训练,可以理解,解释和预测,就像一位无私的理想化和柏拉图式的科学家。”
他解释说:“代替受过训练的演员模仿或取悦人们(包括社会变态者),而是想象一个像心理学家一样受过训练的AI,更普遍地是一名科学家,他试图理解我们,包括什么会伤害我们。”“心理学家可以在不像一个人的情况下研究社会变态。”
今年早些时候发表的Pree-Pree-Review论文Bengio和他的同事更简单地解释了这一点。
“该系统旨在从观察中解释世界,”纸读,“而不是采取行动模仿或让人类取悦人类。”
当然,建立“安全” AI的概念远非新事物 - 从字面上看,几位Openai研究人员离开Openai和建立拟人化作为竞争对手研究实验室。
这似乎是不同的,因为与众人,OpenAI或其他任何向AI安全服务同时付出口头服务同时仍在携带现金的公司不同,Bengio是一个非营利性的,尽管这并没有阻止他筹集了3000万美元来自前Google首席执行官埃里克·施密特(Eric Schmidt)等人。
有关令人毛骨悚然的AI的更多信息: 高级Openai模型捕获的破坏代码旨在将其关闭