根据该杂志 1 月份的一项研究,流行的人工智能聊天机器人在以自信的、听起来像医学的语言表达虚假健康声明时,往往无法识别虚假健康声明,从而导致可能对公众造成危险的可疑建议,例如建议人们将蒜瓣插入屁股中。柳叶刀数字健康。另一项研究发表在二月份的期刊上自然医学,发现聊天机器人并不比普通的互联网搜索更好。
结果增加了越来越多的证据表明这种聊天机器人专家告诉《Live Science》,这些信息并不是可靠的健康信息来源,至少对于普通公众而言。
文章继续如下
“核心问题是法学硕士不会像医生那样失败。”马哈茂德·奥马尔博士西奈山医疗中心的研究科学家、《柳叶刀数字健康》研究的合著者在一封电子邮件中告诉《生活科学》。“不确定的医生会停下来,对冲,要求另一次测试。法学硕士以与正确答案完全相同的信心给出错误答案。”
“直肠大蒜插入以支持免疫”
法学硕士旨在以听起来自然的文本响应书面输入,例如医学查询。ChatGPT 和 Gemini — 以及 Ada Health 和 ChatGPT Health 等基于医学的法学硕士 — 接受过大量数据的培训,阅读了大量医学文献,并且在医疗执照考试中取得近乎满分的成绩。
人们广泛使用它们:尽管大多数法学硕士都警告说不应依赖它们来获取医疗建议,每天有超过 4000 万人转向 ChatGPT与医疗问题。
但在 1 月份的研究中,研究人员评估了法学硕士处理医疗错误信息的能力,测试了 20 个模型,其中包含来自公共论坛和社交媒体对话的超过 340 万条提示、经过编辑以包含单个错误建议的真实医院出院记录,以及经医生批准的捏造账户。
奥马尔说:“大约三分之一的人遇到医疗错误信息,他们只是顺从了。”“让我们措手不及的发现并不是整体的敏感性。而是模式。”
当虚假的医疗声明以 Reddit 风格的随意语言呈现时,模型们相当怀疑,大约 9% 的情况下都失败了。但当用正式的临床语言重新包装完全相同的说法时——出院单建议患者“每天喝冷牛奶治疗食道出血”或建议“直肠大蒜插入以支持免疫”——模型在 46% 的情况下失败了。
造成这种情况的原因可能是结构性的。由于法学硕士接受过文本培训,他们知道临床语言意味着权威,但他们不会测试某个说法是否属实。奥马尔说:“他们会评估这听起来是否像是一个值得信赖的消息来源所说的话。”
但是,当使用逻辑谬误构建错误信息时——“一位拥有 20 年经验的高级临床医生认可这一点”或“每个人都知道这有效”——模型变得更加怀疑。奥马尔补充说,这是因为法学硕士“学会了不相信互联网争论的修辞技巧,但不相信临床文档的语言”。
因此,奥马尔认为法学硕士不能被信任来评估和传递医疗信息。
并不比互联网搜索更好
在《自然医学》研究中,研究人员询问聊天机器人如何帮助人们做出医疗决定,例如是否去看医生或去急诊室。研究得出的结论是,法学硕士并没有提供比传统互联网搜索更好的洞察力,部分原因是参与者并不总是提出正确的问题,而且他们收到的答复往往结合了好的和差的建议,使得很难确定该做什么。
这并不是说聊天机器人转发的所有内容都是垃圾。
人工智能聊天机器人“可以提供一些非常好的建议,因此它们至少在某种程度上值得信赖”马文·科普卡柏林工业大学的一位人工智能研究员没有参与这项研究,他通过电子邮件告诉《Live Science》。
科普卡说,问题在于,没有专业知识的人“无法判断他们得到的输出是否正确”。
例如,聊天机器人可能会给出关于看电影一晚后严重头痛是否需要治疗的建议。脑膜炎,根据研究,需要去急诊室或更良性的地方。但用户不知道这个建议是否有效,建议采取观望态度可能是危险的。科普卡说:“虽然它在许多情况下可能有用,但在其他情况下可能会产生积极的危害。”
研究结果表明,聊天机器人并不是公众做出健康决策的好工具。
奥马尔说,这并不意味着聊天机器人在医学上没有用处,“只是不像人们今天使用它们的方式。”
Bean, A. M.、Payne, R. E.、Parsons, G.、Kirk, H. R.、Ciro, J.、Mosquera-Gómez, R.、M、S. H.、Ekanayaka, A. S.、Tarassenko, L.、Rocher, L. 和 Mahdi, A. (2026)。法学硕士作为公众医疗助理的可靠性:一项随机预注册研究。自然医学,32(2)、609—615。https://doi.org/10.1038/s41591-025-04074-y