英语轻松读发新版了,欢迎下载、更新

医学的过度待办事项问题 - 以及AI如何使情况变得更糟

2025-04-30 17:55:52 英文原文

作者:Uwe Peters

在医学中,有一个众所周知的格言:永远不要说超过数据允许的更多。这是临床医生和研究人员学到的首批教训之一。

期刊编辑期待它。评论者要求它。医学研究人员主要遵守。他们以清晰度为代价,对冲,资格和缩小主张。以此结论,以反映典型的临床试验报告的风格:

在498例复发或难治性多发性骨髓瘤的欧洲患者的随机试验中,该治疗的中值无进展生存率提高了4.6个月,在60%的患者中,三到四年级的不良事件以及寿命质量得分的适度改善,尽管该发现可能并不能从较老或更少的合适种群中概括。

它是最严格而筋疲力尽的医学写作。精确,但并不容易接受。

因此,毫不奇怪,这些谨慎的结论通常会简化为更清洁,更自信的东西。上面的例子可能被简化为类似:治疗可​​以改善生存和生活质量。

哲学家称这类陈述仿制药概括没有明确的量词。诸如治疗的陈述是有效的或该药物是安全的权威,但他们没有说:为谁?多少?与什么相比?在什么条件下?

The OpenAI logo appears on a mobile phone in front of a screen showing part of the company website in a photo taken in November 2023

人工智能有可能大大加剧过度概括医学研究结果的问题。 (美联社照片/彼得·摩根)

医学研究的概括

以前的工作在健康沟通的伦理中,我们强调了医学研究中的仿制药如何倾向于删除细微差别,将狭窄的,特定于人群的发现转化为宣传读者可能会误用所有患者的宣传主张。

系统评价在最高医学期刊的500多项研究中,我们发现超过一半的人口超出了所研究的人群的概括。其中80%是仿制药,不到10%为这些广泛主张提供了任何理由。

研究人员过度概括的趋势可能会反映出更深的认知偏见。面对复杂性和有限的关注,人类自然会倾向于更简单,更广泛的主张,即使它们超越了数据支持。实际上,解释数据的动力,讲述一个连贯的故事,甚至可以导致仔细的研究人员过度概括。

现在,人工智能(AI)可能会大大加剧这个问题。在我们的最新研究,我们测试了10种广泛使用的大型语言模型(LLMS),包括Chatgpt,Deepseek,Llama和Claude',它们可以从顶级医学期刊中汇总摘要和文章的能力。

即使提示了准确性,大多数模型通常会删除预选赛,过度简化的发现和重新包装的研究人员精心上下文的主张是更广泛的陈述。

AI生成的摘要

分析了近5,000个LLM生成的摘要,我们发现某些模型的过度征收率高达73%。通常,他们将非传播的主张转化为仿制药,例如,从治疗中有效地转移了这项研究,简单地治疗是有效的,这歪曲了这项研究的真实范围。

令人惊讶的是,当我们将LLM生成的摘要与人类专家撰写的摘要进行比较时,聊天机器人产生广泛的概括的可能性几乎是五倍。但是,也许最令人担忧的是,包括Chatgpt-4O和DeepSeek在内的新型模型倾向于概括更多而不是更少。

这些发现是什么?接受过度概括的科学文本培训的LLM可能会从输入中继承人类偏见。通过加强从人类反馈中学习的学习,他们也可能开始赞成自信,广泛的结论,而不是仔细的,情境化的主张,因为用户通常喜欢简洁,自信的回应。

由于研究人员,临床医生和学生越来越多地使用LLM来总结科学文章。

A woman seen from behind, looking at a computer screen displaying elements of the Claude AI

使用LLM进行摘要的研究人员应仍然意识到,即使是良好的准确性提示也可能适得其反。 加拿大新闻/佐丹诺·齐亚皮尼

在最近的一个全球调查在近5,000名研究人员中,近一半的研究人员报告说,已经在他们的研究中使用了AI,而58%的研究人员认为,与人类相比,AI目前的工作总结更好。一些声称LLM可以胜过临床文本摘要的医学专家。

我们的研究对此表示怀疑。这些工具产生的过度属性有可能大规模扭曲科学理解。这在医学等高风险领域中尤其令人担忧,那里的人口,效果规模和不确定性的细微差别确实很重要。

精度很重要

那怎么办?对于人类的作者,既解决数据的报告又涉及如何描述发现的更清晰的准则和编辑政策可以减少医学写作中的过度属性。同样,使用LLM进行摘要的研究人员应该有利于Claude等模型 - 我们研究中最准确的LLM,并且仍然意识到即使是良好的准确性提示也可能适得其反。

反过来,AI开发人员可以在其LLM中建立提示,从而在总结研究时鼓励更加谨慎的语言。最后,我们的研究方法可以帮助基准LLMS在现实世界中部署它们之前的过度概括趋势。

在医学研究中,精度不仅在收集和分析数据方面,而且在我们的沟通方式上。我们的研究揭示了人类和机器中的共同趋势,以免说出比数据允许的更多倾向。

应对这种趋势意味着将自然和人工智能同时遵守更高的标准:不仅审查研究人员如何沟通结果,而且还要训练我们越来越多地塑造这种交流的工具。在医学上,必须仔细的语言必须确保正确的治疗疗法到达正确的患者,并在实际适用的证据的支持下。

关于《医学的过度待办事项问题 - 以及AI如何使情况变得更糟》的评论


暂无评论

发表评论

摘要

在医学研究中,人类作者和AI模型都有过度概括的发现的趋势,这是普遍适用的具体结果。一项研究发现,诸如ChatGpt之类的AI模型在汇总医学期刊时通常会从原始文本中删除限定词,从而导致广泛的概括没有适当的背景。这可能会误导读者对研究的真正范围,尤其是在诸如细微差别至关重要的医学等高风险领域。为了解决这个问题,建议对人类作者和AI开发人员使用更清晰的指南和谨慎的语言使用。