当高级系统迅速学习撒谎，欺骗，勒索和骇客时，AI的教父感到震惊

这项技术越来越多地撒谎和欺骗的倾向 - 他正在建立自己的非营利组织来遏制这种行为。

在博客文章宣布Lawzero，新的非营利性合资企业”AI教父“ Yoshua Bengio说，随着AI模型变得越来越强大和欺骗性，他已经变得“非常关注”。

“创建了该组织，以回应当今的边境AI模型具有危险能力和[行为]的证据，”世界最引用的计算机科学家写道：“包括欺骗，作弊，说谎，黑客，自我保护以及更普遍的目标错位。”

在所有人中，本吉奥知道。2018年，蒙特利尔学习算法研究所（MILA）的创始人是颁发图灵奖与AI先驱者Yann Lecun和Geoffrey Hinton一起在机器学习研究中的形成角色，他被列为之一时间杂志的“100人最有影响力的人“在2024年，由于他对不断加速的技术的影响很大。

尽管有赞誉，班吉奥还是反复表示遗憾关于他在带来高级AI技术及其的作用硅谷炒作周期实现。最新的遗书似乎是他迄今为止最鲜明的。

AI先驱在他的博客文章中写道：“我非常担心。

Bengio指出了最近的红色团队实验，或者测试将AI模型推向其限制，以了解它们将如何行动，这表明先进的系统已经开发出一种不可思议的趋势，可以通过任何必要的方式使自己“活着”。他的例子是拟人的最新报告详细说明其Claude 4模型如何被告知将被关闭时，威胁要勒索如果遵循的话，具有罪犯的电子邮件的工程师。

装饰的研究人员写道：“这些事件是AI可能不受组织的意外且潜在危险的策略的预警信号。

为了检查这种行为，本吉奥说，他的新非营利组织正在建立一个所谓的“值得信赖的”模型，他称之为“科学家AI”，“受过训练，可以理解，解释和预测，就像一位无私的理想化和柏拉图式的科学家。”

他解释说：“代替受过训练的演员模仿或取悦人们（包括社会变态者），而是想象一个像心理学家一样受过训练的AI，更普遍地是一名科学家，他试图理解我们，包括什么会伤害我们。”“心理学家可以在不像一个人的情况下研究社会变态。”

今年早些时候发表的Pree-Pree-Review论文Bengio和他的同事更简单地解释了这一点。

“该系统旨在从观察中解释世界，”纸读，“而不是采取行动模仿或让人类取悦人类。”

当然，建立“安全” AI的概念远非新事物 - 从字面上看，几位Openai研究人员离开Openai和建立拟人化作为竞争对手研究实验室。

这似乎是不同的，因为与众人，OpenAI或其他任何向AI安全服务同时付出口头服务同时仍在携带现金的公司不同，Bengio是一个非营利性的，尽管这并没有阻止他筹集了3000万美元来自前Google首席执行官埃里克·施密特（Eric Schmidt）等人。

有关令人毛骨悚然的AI的更多信息： 高级Openai模型捕获的破坏代码旨在将其关闭

OC

当高级系统迅速学习撒谎，欺骗，勒索和骇客时，AI的教父感到震惊

关于《当高级系统迅速学习撒谎，欺骗，勒索和骇客时，AI的教父感到震惊》的评论

发表评论

摘要

相关新闻

相关讨论