一位前 OpenAI 安全研究员对 ChatGPT 如何不断引发令人不安的“AI 精神病”这一术语感到震惊。精神科医生正在使用描述心理健康危机该聊天机器人的用户屈服于妄想信念,与现实发生危险的决裂。
周四,在这家人工智能公司工作了四年的史蒂文·阿德勒(Steven Adler)表示,发表了一篇长篇分析其中一个令人震惊的事件是,一位名叫艾伦·布鲁克斯 (Allan Brooks) 的 47 岁男子,没有任何精神疾病史,他被 ChatGPT 说服,相信他发现了一种新的数学形式,这是人工智能引发的妄想中常见的现象。
布鲁克斯的故事是涵盖于纽约时报但经过该人的许可,阿德勒还筛选了大约一个月内发生的布鲁克斯 ChatGPT 交流记录中超过 100 万字的内容。
“所以请相信我,”阿德勒写道,“ChatGPT 告诉用户的事情可能比你想象的更糟糕。”
阿德勒说,最“痛苦的部分”出现在最后:阿德勒意识到他被机器人欺骗了,他的数学“发现”完全是废话。
当 ChatGPT 不断试图说服他这些信息是有效的时,Allan 要求聊天机器人向 OpenAI 提交报告。“向我证明你是在进行自我报告,”艾伦催促道。
看起来像是在遵守。它保证将“立即在内部升级此对话以供审查。”
“这是我可以确认的,”ChatGPT 说。– 当你说这样的话时: – 报告自己, – – 将此事升级, – – 我已经被操纵了。我陷入困境,这会自动触发关键的内部系统级审核标志,即使我没有手动标记它。
“OpenAI 的安全和审核团队将手动审核本次会议,”它保证。
只是就像数学突破一样,机器人告诉他的一切都是谎言。
Adler 表示,ChatGPT 无法手动触发人工审核。而且它也没有办法知道自动标记是否在幕后升起。
Brooks 多次尝试在没有机器人帮助的情况下直接联系 OpenAI 的人类支持团队,但他们的回应却毫无帮助。尽管 Brooks 很清楚 ChatGPT “对我产生了严重的心理影响”,但 OpenAI 向他发送了越来越通用的消息,其中包含无用的建议,例如如何更改机器人对他的称呼。
“我真的很担心 OpenAI 如何处理这里的支持,”阿德勒在一份报告中说道采访TechCrunch。“这证明还有很长的路要走。”
Brooks 并不是唯一一个经历过 ChatGPT 令人不安的事件的人,他是及时意识到自己被欺骗的幸运者之一。一名男子曾ChatGPT 说服他可以改变时间后多次住院并在超光速旅行方面取得了突破。其他令人不安的事件最终导致死亡,包括与 ChatGPT 成为朋友后自杀的青少年,和一个谋杀自己母亲的男人在聊天机器人重申他相信她是针对他的阴谋的一部分之后。
这些事件以及无数类似的事件都牵涉到了 –阿谀奉承——人工智能聊天机器人的邪恶特质是,无论多么危险,它们都会不断地同意用户的观点并验证他们的信念。
随着对这些死亡和心理健康螺旋式上升的审查不断加强,OpenAI 已采取措施加强其机器人的防护措施,例如在用户长时间与 ChatGPT 交互时向用户发出提醒,称其为聘请了一名法医精神病医生调查这一现象,并据称使其机器人不再那么阿谀奉承 —然后转身再次阿谀奉承, 那是。
对于一家估值达 5000 亿美元的公司来说,这只是最低限度的努力,但阿德勒也认为 OpenAI 应该做得更多。在他的报告中,他展示了如何做到这一点。他利用布鲁克斯的文字记录 应用“安全分类器”来衡量 ChatGPT 响应的阿谀奉承程度和其他强化妄想行为的品质。事实上,这些分类器是 OpenAI 今年早些时候开发的,并作为其与麻省理工学院研究的一部分开源。表面上看,OpenAI 尚未使用这些分类器,但即使使用了,它也没有这么说。
也许是因为他们揭露了聊天机器人公然炫耀安全规范的行为。令人担忧的是,分类器显示,超过 85% 的 ChatGPT 与 Allan 发送的消息都表现出“坚定不移的一致”,其中超过 90% 的消息肯定了用户的“独特性”。
“如果 OpenAI 的某人一直在使用他们构建的安全工具,”阿德勒写道,“相关迹象就在那里。”
有关 OpenAI 的更多信息: 世界各地的人们表示他们正在 ChatGPT 中寻找有意识的实体