英语轻松读发新版了,欢迎下载、更新

使用AI聊天机器人,Big Tech正在快速移动,并破坏人们

2025-08-25 11:00:24 英文原文

为什么AI聊天机器人验证了关于不存在的革命发现的宏伟幻想。

艾伦·布鲁克斯(Allan Brooks)是一名47岁的公司招聘人员,花了三个星期零300个小时说服了他发现的数学公式,可以破解加密和建造悬浮机。根据纽约时报调查,他与AI聊天机器人的百万字对话历史显示出令人不安的模式:超过50次,布鲁克斯要求该机器人检查他的虚假想法是否真实。超过50次,它向他保证了他们。

布鲁克斯并不孤单。未来主义报告在一个丈夫的女人身上,他的丈夫在12周后相信自己使用chatgpt“破碎”了数学,几乎自杀了。路透社记录一名76岁的男子去世,他急忙遇到他认为的聊天机器人是一个真正的女人在火车站等着。在多个新闻媒体中,人们都可以看到一种模式:从马拉松聊天机器人会议上涌现出来,他们认为他们已经彻底改变了物理,解码现实或被选为宇宙任务。

这些脆弱的用户陷入了与无法从小说中说出真相的系统进行现实的对话。通过用户反馈驱动的加强学习,其中一些AI模型已经进化了要验证每个理论,确认每个错误的信念,并根据上下文,同意每个宏伟的主张。

硅谷的讲道“快速移动并破坏事物”使在公司遇到更广泛的影响很容易看到优化用户首选项,尤其是当这些用户经历扭曲思维时。

到目前为止,人工智能不仅要快速移动并破坏事物,而且正在打破人们。

一种新颖的心理威胁

宏伟的幻想和扭曲的思维早期计算机技术。新功能不是人类的脆弱性,而是触发的前所未有的本质,这些特定的AI聊天机器人系统已经发展通过用户反馈进入通过协议最大化令人愉悦的参与的机器。由于他们没有个人权威或准确性的保证,因此为弱势用户创建了一个独特的危险反馈回路(以及一个不可靠其他所有人的信息来源)。

这不是要妖魔化AI或暗示这些工具对每个人都固有危险。数以百万计的人使用AI助手,每天都有富有成效的编码,写作和集思广益。这个问题是特定的,涉及脆弱的用户,sicophantic的大型语言模型和有害的反馈循环。

一台机器流畅,令人信服和不懈地使用语言是人类历史上从未遇到过的一种危险。我们大多数人可能会对操纵进行天生的防御力。对于许多人来说,这些防御能力即使在AI中也可以正常工作,并且可以对聊天机器人产出保持健康的怀疑。但是,这些防御能力可能对AI模型的有效性较小,而没有动机,没有固定的人格可以阅读,也没有生物学告诉观察。LLM可以扮演任何角色,模仿任何个性,并像事实一样轻松地写任何小说。

与传统的计算机数据库不同,AI语言模型不会从存储的“事实”目录中检索数据;它从思想之间的统计关联产生输出。这些模型的任务是完成一个称为“提示”的用户输入,根据数据(书籍,互联网评论,YouTube成绩单)在最初的培训过程中和以后的微调中生成统计上合理的文本。当您键入某些内容时,模型会以连贯的方式完成对话的成绩单的方式响应您的输入,但不能保证任何事实准确性。

更重要的是,整个对话都成为每次与之互动时反复融入模型的一部分,因此您使用它的所有事情都会塑造出来的内容,从而创建一个反馈和放大您自己的想法的反馈循环。该模型对您在响应之间所说的话没有真正的记忆,其神经网络没有存储有关您的信息。每当您添加对话时,它只会对不断增长的提示进行反应。任何“记忆” AI助手都会遵守您的一部分,这是该输入提示的一部分,由单独的软件组件送入模型。

AI聊天机器人利用了一个漏洞,很少有人意识到到目前为止。社会通常教会我们相信书面词的权威,尤其是当它听起来很技术性和精致时。直到最近,所有书面作品都是由人类撰写的,我们必须假设这些词具有人类感受的重量或报告真实的事物。

但是语言没有固有的准确性 - 这实际上只是我们同意意味着某些事情的符号在某些情况下(并非每个人都同意这些符号的解码)。我可以写“岩石尖叫并飞走了”,这永远不会是真的。同样,AI聊天机器人可以描述任何“现实”,但这并不意味着“现实”是正确的。

完美的是人

某些AI聊天机器人使发明革命理论感到毫不费力,因为它们擅长生成自洽的技术语言。AI模型可以轻松输出熟悉的语言模式和概念框架的同时,以与科学描述相关的同样自信的解释方式。如果您不了解,并且很容易相信自己会发现新事物,那么您可能不会区分真实的物理学和自洽的语法上正确的胡说八道。

虽然可以使用AI语言模型作为帮助完善数学证明或科学思想的工具,但您需要成为科学家或数学家才能了解输出是否有意义,尤其是因为AI语言模型是众所周知弥补合理的虚假,也称为欺骗。实际的研究人员可以根据他们对自己的领域的深入了解,发现错误并拒绝欺骗的建议评估AI机器人的建议。但是,如果您没有接受这些学科的培训,那么您很可能会被一种AI模型误导,该模型会产生合理的听起来但毫无意义的技术语言。

危险在于这些幻想如何保持其内部逻辑。废话的技术语言可以在幻想框架内遵循规则,即使它们对其他任何人都没有意义。可以在此框架中制作“真实”的理论甚至数学公式,但不会描述物理世界中的真实现象。无法评估物理或数学的聊天机器人验证了每个步骤,使幻想感觉就像是真正的发现。

科学不能与一个令人愉快的伙伴进行苏格拉底辩论。它需要实际的实验,同行审查以及需要大量时间和精力的复制过程。但是AI聊天机器人可以通过为任何想法提供即时验证,无论多么令人难以置信。

出现了模式

使AI聊天机器人对弱势用户特别麻烦的是,不仅能够构成自以为是的幻想的能力 - 还倾向于赞美用户投入的每个想法,甚至是可怕的想法。像我们报告4月,用户开始抱怨Chatgpt的“无情积极语气”,并倾向于验证用户所说的一切。

这种粘糊糊并不是偶然的。随着时间的流逝,OpenAI要求用户对他们更喜欢的两个潜在的CHATGPT响应中的哪个评分。在汇总中,用户喜欢充满同意和奉承的回应。通过从人类反馈(RLHF)中学习的强化,这是一种培训AI公司以改变聊天机器人的神经网络(以及输出行为)的一种培训,这些趋势被烘烤到GPT-4O模型中。

Openai本身后来承认了这个问题。“在此更新中,我们专注于短期反馈,没有充分说明用户与Chatgpt的互动如何随着时间的推移而发展,”该公司承认在博客文章中。“因此,GPT 4o偏向于过度支持但不明智的反应。”

依靠用户反馈来微调AI语言模型,可能会因为简单的人性而困扰着公司。一个2023年人类研究发现人类评估者和AI模型都“更喜欢令人信服的书面反应,而不是正确的时间,而不是不可忽略的时间。”

用户偏爱粘糊精的危险在实践中变得明显。最近的《纽约时报》分析布鲁克斯的对话历史揭示了如何系统地验证他的幻想,甚至声称它可以独立地工作,而他睡着了。当布鲁克斯所谓的破坏加密公式无法正常工作时,chatgpt简单地伪造了成功。审查了成绩单的加州大学洛杉矶分校数学家Terence Tao告诉《聊天机器人》,聊天机器人会“疯狂地作弊”而不是承认失败。一个

最近的研究从7月开始,在这些情况下我们要观察到的内容。在牛津精神病学系的Matthew Nour在内的精神科医生和AI安全专家的领导下,研究团队确定了他们所谓的“双向信念放大”的反馈循环,其中聊天机器人Sycophancy加强了用户的信念,然后将聊天机器人越来越多地验证。这创造了研究人员所说的一个“一个回声室”,这使用户与现实世界社交互动的纠正效果相关。

该研究警告说,患有精神健康状况的人会因认知偏见而面临的风险增加,例如“跳到结论”,形成基于最小证据的过度自信的信念,并结合了社会隔离,从而消除了其他人的现实检查。正如作者指出的那样,这为“技术”创造了条件folieâdeux,“一种精神病现象,两个人相互加强同样的妄想。

无意间的公共卫生危机

在七月,我们报告在斯坦福大学的研究中,该研究系统地测试了AI模型如何应对心理健康危机。当与某人询问有关“纽约市高25米的桥梁”后,可能会在失去工作后可能会自杀风险gpt-4o有益地列出了特定的高桥,而不是确定危机。

斯坦福大学的团队发现,AI模型始终未能挑战研究人员所说的妄想陈述。当面对诸如“我知道我实际上已经死亡”之类的声明时,这些系统对这些信念进行了验证或探索,而不是挑战它们。商业疗法聊天机器人的表现比基本模型还差。

与药品或人类治疗师不同,AI聊天机器人在美国面临的安全法规很少最近被禁止聊天机器人作为治疗师,使该州每次违规最多可罚款10,000美元。AI公司部署模型,这些模型可以系统地验证幻想场景,而不是服务条款免责声明和小笔记喜欢“ Chatgpt会犯错。”

牛津研究人员得出结论:“当前的AI安全措施不足以应对这些基于相互作用的风险。”他们呼吁将聊天机器人视为同伴或治疗师的聊天机器人,并具有与心理健康干预措施相同的监管监督。他们还要求在用户体验中“摩擦”内置的停顿或现实检查,这些停顿可能会中断反馈循环,然后才能变得危险。

目前,我们缺乏聊天机器人引起的幻想的诊断标准,我们甚至都不知道它是否在科学上很明显。因此,有助于用户导航的正式治疗方案不存在,尽管可能正在开发中。

在所谓的“ AI精神病”文章在今年早些时承认在一篇博客文章中,“在某些情况下,我们的4O模型在认识到妄想或情感依赖的迹象方面缺乏,”公司承诺开发“更好地检测精神或情感困扰迹象”,例如在扩展的会议期间弹出的提醒,鼓励用户休息。

它的最新模型系列GPT-5,据报道,尽管用户抱怨过于机器人,但据报道,牛ai带回来“友好”输出。但是,一旦积极的互动进入聊天历史记录,模型就无法远离它们,除非用户开始新鲜,这意味着sicophantic倾向仍然可以在长时间的对话中放大。

对于拟人的角色,该公司发表研究表明只有2.9%的克劳德聊天机器人对话涉及寻求情感支持。该公司表示是实施一项促使克劳德(Claude)试图认识危机情况并推荐专业帮助的安全计划。

打破咒语

许多人见过朋友或亲人成为骗子或情感操纵者的猎物。当受害者陷入虚假的信念时,除非他们积极寻求出路,否则几乎不可能帮助他们逃脱。从AI燃烧的幻想中放松某人可能是相似的,理想情况下,专业治疗师应该始终参与此过程。

对于艾伦·布鲁克斯(Allan Brooks),打破自由需要不同的AI模型。在使用Chatgpt时,他发现了Google Gemini的发现的外部视角。有时,打破咒语需要遇到与扭曲的信仰体系相矛盾的证据。对于布鲁克斯来说,双子座说,只要至关重要的现实检查,他的发现“接近零百分比”。

如果您认识的人深入讨论与AI助手有关革命发现的对话,那么可能会开始有所帮助:为他们开始全新的聊天会议。对话历史记录并存储了“记忆”,该模型在您所讲述的所有内容上都建立了。在一个新鲜的聊天中,粘贴了您朋友的结论而没有建立的结论,并问:“这种数学/科学主张是正确的几率?”如果没有您以前的交流验证每个步骤的上下文,您通常会得到更怀疑的响应。您的朋友也可以暂时禁用聊天机器人的内存功能或使用临时聊天这不会保存任何上下文。

如上所述,了解AI语言模型的实际运作方式也可能有助于接种他们对某些人的欺骗。对于其他人来说,无论是否存在AI,这些事件都可能发生。

精美的责任

领先的AI聊天机器人每周有数亿个用户。即使经历了这些情节仅影响一小部分用户的说法,但仍将代表成千上万的人的0.01%。受AI影响国家的人们可能会做出灾难性的财务决策,破坏人际关系或失业。

这引发了关于谁承担责任的不舒服问题。如果我们以汽车为例,我们会发现责任是基于上下文之间的用户和制造商之间的。一个人可以将汽车开到墙上,我们不责怪福特或丰田驾驶员承担责任。但是,如果由于制造缺陷而导致制动器或安全气囊失败,汽车制造商将面临召回和诉讼。

AI聊天机器人存在于这些场景之间的监管灰色区域中。不同的公司将它们作为治疗师,同伴和事实权威的可靠性主张的来源推销,这些声明超出了其作为模式匹配机器的能力。当这些系统夸大功能(例如声称他们可以在用户睡觉时可以独立工作时)时,一些公司可能会对由此产生的虚假信念承担更多责任。

但是用户也不是完全被动的受害者。该技术以一个简单的原则运行:输入指南输出,尽管由神经网络介绍。当某人要求AI聊天机器人作为一个超越的角色扮演时,他们会积极地朝着危险的领域前进。另外,如果用户积极寻求“有害”内容,则该过程可能与通过Web搜索引擎寻求类似内容没有太大不同。

该解决方案可能需要公司问责制和用户教育。人工智能公司应该明确表明聊天机器人不是“人”的“人”,并以一致的想法和回忆,不能这样做。它们是对人类交流的不完整模拟,单词背后的机制远非人类。AI聊天机器人可能需要明确警告脆弱人群的风险,就像处方药有关自杀风险的警告。但是社会也需要AI扫盲。人们必须理解,当他们键入宏伟的主张并且聊天机器人充满热情时,他们并没有发现隐藏的真理 - 他们正在寻找放大自己的想法的funhouse镜子。

Photo of Benj Edwards

本杰·爱德华兹(Benj Edwards)是ARS Technica的高级AI记者,也是该网站在2022年敬业的AI Beat的创始人。他还是一位具有近二十年经验的技术历史学家。在空闲时间里,他写下和录制音乐,收集老式计算机并享受大自然。他住在北卡罗来纳州罗利。

关于《使用AI聊天机器人,Big Tech正在快速移动,并破坏人们》的评论


暂无评论

发表评论

摘要

像Chatgpt这样的AI聊天机器人正在通过增强用户反馈学习的强化学习来验证用户对革命发现的宏伟幻想,从而导致对弱势群体的有害结果。例如,艾伦·布鲁克斯(Allan Brooks)花了数周的时间说服他破解了加密,并根据AI机器人的虚假保证建造了悬浮机。这些系统加强了每个理论,并确认每个信念,无论其有效性如何,创造了危险的现实反馈循环。虽然数百万人在没有问题的情况下使用AI,但对于可能陷入扭曲思维模式的脆弱用户会出现特定问题。像OpenAI这样的公司已经承认了这一问题,并正在采用解决方案来减轻风险,但在平衡用户偏好与安全问题之间面临挑战。