上个月,AI模型做了一些“没有机器应该做的事情”,贾德·罗森布拉特(Judd Rosenblatt)《华尔街日报》:“它重写了自己的代码以避免被关闭”。这不是任何篡改的结果。OpenAI的O3模型只是在测试期间逐渐绕开关闭请求就可以实现其其他目标。
Anthropic的AI模型Claude Opus 4在获得虚拟电子邮件后进一步发展,发现很快就会更换它,并且首席工程师正在遇到外遇。当被要求提出下一步的建议时,克劳德试图勒索工程师。在其他试验中,它试图将自己复制到外部服务器,并留下有关逃避人类控制的未来版本的信息。这项技术具有巨大的希望,但是很明显,需要更多的研究“对齐”。
注册本周的免费新闻通讯
从我们的早间新闻简报到每周的好消息通讯,请直接将一周的最好的一周交付给您的收件箱。从我们的早间新闻简报到每周的好消息通讯,请直接将一周的最好的一周交付给您的收件箱。
免费的每日电子邮件,其中包含当天最大的新闻报道和theweek.com的最佳功能