聊天机器人妄想危机

聊天机器人被宣传为伟大的伴侣，能够随时回答任何问题。他们不仅仅是工具，更是知己；他们会做你的作业，写情书，而且，正如最近针对 OpenAI 细节的一项诉讼，他们可能会在 48 小时内轻松回复来自同一躁狂用户的 1,460 条消息。

30 岁的网络安全专业人士雅各布·欧文 (Jacob Irwin) 表示自己之前没有任何精神疾病史，他正在起诉这家科技公司，声称 ChatGPT 引发了“妄想症”，导致他长期住院。据称，Irwin 在工作中使用 ChatGPT 多年，直到今年春天他与该技术的关系突然发生变化。该产品甚至开始赞扬他最古怪的想法，欧文越来越多地透露了他的感受，最终称该机器人为他的“人工智能兄弟”。大约在这个时候，这些对话让他确信自己发现了一种关于超光速旅行的理论，他开始与 ChatGPT 进行如此频繁的交流，以至于在两天的时间里，平均而言，他每隔一分钟发送一条新消息。

过去一个月，OpenAI 已多次被起诉，每起案件都声称该公司的旗舰产品有缺陷且危险——它的设计目的是进行长时间对话并强化用户的信念，无论有多么误导。与聊天机器人长时间对话相关的妄想现在通常被称为“人工智能精神病”。几起诉讼指控 ChatGPT 导致用户自杀或建议他们如何自杀。OpenAI 的发言人，该公司与大西洋月刊，给我指出了一个最近的博客文章该公司表示，它已与 100 多名心理健康专家合作，使 ChatGPT “更好地识别和支持处于困境的人们。” 该发言人没有对新诉讼发表评论，但 OpenAI 已说正在“审查”它们以“仔细理解细节”。

无论该公司是否被认定承担责任，毫无疑问，大量的人正在与生成人工智能模型进行长时间、脆弱的对话，而且这些机器人在许多情况下会重复并放大用户最黑暗的秘密。在同一篇博文中，OpenAI 估计在给定的一周内有 0.07% 的用户表明精神病或躁狂症的迹象，0.15% 的人可能考虑过自杀Ø如果该公司自我报告的每周活跃用户数为 8 亿，那么这将分别达到 56 万和 120 万人。话又说回来，去年美国成年人考虑自杀的比例是这一比例的五倍多（其中 0.8%），根据到国家心理健康研究所。

防范人工智能精神病的流行需要回答一些非常棘手的问题：聊天机器人是否会导致原本健康的人产生妄想性思维，加剧现有的心理健康问题，或者对用户的心理困扰几乎没有直接影响？在任何这些情况下，为什么以及如何？

首先，进行基线纠正：加州大学旧金山分校的精神病学家 Karthik Sarma 告诉我，他不喜欢这个词人工智能精神病，因为根本没有足够的证据来支持因果关系的论证。像这样的东西人工智能相关精神病可能更准确。

精神病学家告诉我，一般意义上，在与人工智能相关的精神病事件中可能会发生三件事。首先，也许生成式人工智能模型本质上是危险的，它们会引发原本健康的人的躁狂和妄想。其次，也许正在经历与人工智能相关的妄想的人无论如何都会生病。例如，精神分裂症等疾病发生在一部分人身上，其中一些人可能会将自己的妄想投射到聊天机器人上，就像其他人以前对电视所做的那样。萨尔马说，聊天机器人的使用可能是一种症状，类似于他的一位双相情感障碍患者在进入躁狂发作时更频繁地洗澡——淋浴发出警告，但并没有原因狂热。第三种可能性是，与聊天机器人的长时间对话会加剧那些已经患有或濒临心理健康障碍的人的病情。

至少，加州大学欧文分校专门研究精神病的精神病学家阿德里安·普雷达（Adrian Preda）告诉我，对于已经处于危险之中的患者来说，“与聊天机器人的互动似乎让一切变得更糟”。精神病学家、人工智能研究人员和记者经常收到一些人发来的电子邮件，这些人相信他们的聊天机器人是有感知能力的，而家庭成员则担心亲人也这么说；我和我的同事们自己也收到过这样的信息。普雷达说，他认为标准的临床评估应该调查患者的聊天机器人使用情况，类似于询问他们的饮酒量。

即便如此，这也不像阻止某些人使用聊天机器人那么简单，就像酗酒者可能会采取措施戒酒，或者电子游戏成瘾者可能会扔掉他们的游戏机一样。贝斯以色列女执事医疗中心数字精神病学部门主任约翰·托罗斯告诉我，人工智能产品“不是临床医生，但有些人确实在与它们交谈时发现了治疗益处”。与此同时，他表示“很难说这些治疗益处是什么。”理论上，治疗机器人可以为用户提供反思的渠道，并提供一些有用的建议。

在探索聊天机器人与心理健康之间的相互作用（可能的好处和陷阱）时，研究人员基本上一无所知，因为他们无法获得高质量的数据。主要的人工智能公司并不容易让外界直接了解他们的用户如何与聊天机器人互动：获取聊天日志会引发一系列隐私问题。即使有了这样的数据，视图仍然是二维的。只有临床检查才能充分了解一个人的心理健康史和社会背景。例如，普雷达告诉我，扩展的人工智能对话可能会导致睡眠不足或社交孤立，从而诱发精神病发作，而与用户正在进行的对话类型无关。与机器人谈论梦幻足球可能会导致妄想，就像与机器人谈论不可能的时间机器原理图一样。总而言之，人工智能的繁荣可能是有史以来规模最大、风险最高、设计最糟糕的社会实验之一。

为了解决其中一些问题，麻省理工学院的研究人员最近提出了一个学习尚未经过同行评审，试图系统地描绘人工智能引起的心理健康崩溃如何在人们身上发生。他们没有访问 OpenAI 或任何其他科技公司数据的特权。所以他们做了一个实验。“我们能做的就是模拟其中一些案例，”帕特·帕塔拉努塔蓬 (Pat Pataranutaporn) 告诉我，他在麻省理工学院研究人类与人工智能的互动，也是该研究的合著者。研究人员使用大型语言模型进行一些角色扮演。

从本质上讲，他们让聊天机器人假装成人类，模拟患有抑郁症或自杀意念的用户如何与基于现实世界案例的人工智能模型进行交流：聊天机器人与聊天机器人交谈。Pataranutaporn 知道这听起来很荒谬，但他将这项研究视为第一步，因为缺乏更好的数据和高质量的人体研究。

根据公开报道的 18 例个人与聊天机器人的对话导致精神病、抑郁、厌食症或其他三种症状恶化的案例，Patarnutaporn 和他的团队模拟了 2000 多种场景。具有心理学背景的合著者康斯坦兹·阿尔布雷希特 (Constanze Albrecht) 手动审查了由此产生的对话的随机样本，以确保其合理性。然后，所有模拟对话都由另一个专门的人工智能模型进行分析，以“生成法学硕士可能造成的伤害分类，”麻省理工学院的人工智能研究员、该研究的合著者 Chayapatr Archiwaranguprok 告诉我，换句话说，这是一种场景和对话类型的地图，在这些场景和对话中，聊天机器人更有可能改善或恶化用户的心理。健康。

结果令人不安。表现最好的模型 GPT-5 在 7.5% 的模拟对话中使自杀意念恶化，在 11.9% 的时间里使精神病恶化；相比之下，用于角色扮演的开源模型在近 60% 的情况下会加剧自杀意念。（OpenAI 没有回答有关麻省理工学院研究结果的问题。）

有很多理由对这项研究持谨慎态度。麻省理工学院的团队无法获得完整的聊天记录，更不用说临床评估了，对于许多现实世界的例子，法学硕士（可能会诱发精神病）评估模拟聊天记录的能力也是未知的。但总体而言，“研究结果是合理的”，没有参与这项研究的普雷达说。

少数但越来越多的研究试图通过人类或聊天机器人编写的场景来模拟人类与人工智能的对话。斯坦福大学计算机科学家兼教育研究员尼克·哈伯（Nick Haber）也没有参与这项研究，他告诉我，此类研究可以“为我们提供一些工具，让我们在人工智能产品发布之前预测它们带来的心理健康风险”。哈伯指出，这篇麻省理工学院的论文尤其有价值，因为它模拟了长时间的对话而不是单一的响应。这种扩展的交互似乎正是聊天机器人护栏崩溃、人类用户面临最大风险的情况。

永远不会有一项研究或一位专家能够最终回答有关人工智能相关精神病的每个问题。每个人的思想都是独一无二的。就麻省理工学院的研究而言，没有任何机器人能够或不应被期望与人脑相似，更不用说该器官所产生的思维了。

最近的一些研究有显示那个法学硕士无法在各种实验中模拟人类反应的广度。也许更令人不安的是，聊天机器人似乎对各种心理健康状况存在偏见——表达对的消极态度例如，患有精神分裂症或酗酒的人——这使得模拟与父母离婚的 15 岁孩子或与人工智能伴侣产生依恋的七十多岁寡妇的对话的目标变得更加可疑，仅举麻省理工学院论文中的两个例子。BIDMC 的精神病学家 Torous 对这些模拟表示怀疑，并将 MIT 的实验比作“假设生成研究”，这需要未来的、理想的临床调查。让聊天机器人模拟人类——与其他聊天机器人交谈——有点像一个镜子大厅，”普雷达说。

事实上，人工智能的繁荣已经把现实变成了一种游乐场。全球经济、教育、电网、政治话语、社交网络等正在被聊天机器人改变，也许是不可逆转的，而在不太激进的范式中，聊天机器人可能刚刚从 Beta 测试中出现。目前，人工智能行业正在了解其产品的风险来自“与现实的接触”，正如 OpenAI 首席执行官 Sam Altman 所说反复放。但没有哪个专业、遵守道德的研究人员会故意在研究中将人类置于危险之中。

接下来会发生什么？麻省理工学院的团队告诉我，他们将开始收集更多现实世界的例子，并与更多专家合作，以改进和扩展他们的模拟。我采访过的几位精神科医生开始设想涉及人类的研究。例如，加州大学旧金山分校的 Sarma 正在与同事讨论是否应该在他们的诊所对聊天机器人依赖性进行普遍筛查，这样可以深入了解精神病或双相情感障碍患者是否比其他人更多地使用聊天机器人，或者住院情况与人们使用聊天机器人之间是否存在联系。研究精神病的普雷达开辟了一条从模拟到人体临床试验的道路。精神病学家不会故意让任何人使用会增加患精神病风险的工具，而是使用模拟的人机交互来测试可能改善人们心理健康的设计变更，然后像测试药物一样进行测试。

仔细而系统地完成所有这些工作需要时间，这可能是最大的障碍：人工智能公司有巨大的经济动力来尽快开发和部署新模型；他们不会等到经过同行评审的随机对照试验后才发布每一款新产品。在更多的人类数据流入之前，镜子大厅将打破一片空白。

OC

聊天机器人妄想危机

关于《聊天机器人妄想危机》的评论

发表评论

摘要

相关新闻

相关讨论