作者:The Conversation
五分之一的英国医生使用生成式人工智能(GenAI) 工具 — 例如 OpenAI 的 ChatGPT 或 Google 的 Gemini — 来协助临床实践。这是根据一个最近的调查约 1,000 名全科医生。
医生报告称,他们使用 GenAI 在预约后生成文档,帮助做出临床决策并向患者提供信息,例如易于理解的出院摘要和治疗计划。
考虑到围绕人工智能的炒作以及卫生系统面临的挑战,医生和政策制定者都将人工智能视为现代化和卫生系统的关键也就不足为奇了。改变我们的医疗服务。
但 GenAI 是一项最新的创新,它从根本上挑战了我们对患者安全的看法。我们还有很多需要知道在 GenAI 可以安全地用于日常临床实践之前。
传统上,人工智能应用程序是为了执行非常具体的任务而开发的。例如,深度学习神经网络已用于成像和诊断中的分类。事实证明,此类系统可有效分析乳房 X 光照片,以帮助乳腺癌筛查。
但 GenAI 并未接受过执行狭义任务的训练。这些技术基于所谓的基础模型,具有通用功能。这意味着它们可以生成文本、像素、音频甚至这些的组合。
然后,针对不同的应用程序对这些功能进行微调,例如回答用户查询、生成代码或创建图像。与此类人工智能交互的可能性似乎仅受用户想象力的限制。
至关重要的是,由于该技术尚未开发用于特定环境或用于特定目的,因此我们实际上不知道医生如何安全地使用它。这只是 GenAI 尚不适合在医疗保健领域广泛使用的原因之一。
在医疗保健中使用 GenAI 的另一个问题是有据可查的现象的“幻觉”。幻觉是基于已提供的输入的无意义或不真实的输出。
幻觉是在 GenAI 创建文本摘要的背景下进行研究的。一项研究发现各种 GenAI 工具生成的输出根据文本中的内容创建了错误的链接,或者摘要中包含文本中甚至未提及的信息。
幻觉的出现是因为 GenAI 的工作原理是可能性原则(例如预测在给定上下文中将出现哪个单词),而不是基于人类意义上的“理解”。这意味着 GenAI 产生的输出是看似合理但不一定真实。
这种合理性是在常规医疗实践中安全使用 GenAI 为时过早的另一个原因。
想象一下 GenAI 工具可以监听患者的咨询,然后生成电子摘要记录。一方面,这使全科医生或护士能够腾出时间更好地与患者互动。但另一方面,GenAI 可能会根据它认为合理的内容生成注释。
例如,GenAI 摘要可能会改变患者症状的频率或严重程度,添加患者从未抱怨过的症状或包含患者或医生从未提及的信息。
医生和护士需要对人工智能生成的任何笔记进行敏锐的校对,并拥有出色的记忆力来区分事实信息和看似合理但虚构的信息。
这在传统的家庭医生环境中可能没问题,因为全科医生非常了解患者,可以识别不准确的地方。但在我们支离破碎的卫生系统由于患者经常由不同的医护人员接诊,患者记录中的任何不准确都可能对其健康造成重大风险,包括延误、治疗不当和误诊。
与幻觉相关的风险是巨大的。但值得注意的是,研究人员和开发人员目前正在努力减少产生幻觉的可能性。
在医疗保健领域使用 GenAI 还为时过早的另一个原因是患者安全取决于相互作用与人工智能一起确定它在特定背景和环境中的运作情况——研究该技术如何与人合作,它如何适应更大的卫生系统中的规则和压力以及文化和优先事项。这样的系统视角将确定 GenAI 的使用是否安全。
但由于 GenAI 并不是为特定用途而设计的,这意味着它具有适应性,并且可以以我们无法完全预测的方式使用。除此之外,开发人员定期更新他们的技术,添加新的通用功能改变行为GenAI 应用程序的一部分。
此外,即使该技术看起来安全且按预期运行,也可能会造成伤害,具体取决于使用环境。
例如,引入 GenAI 对话代理进行分诊可能会影响不同患者参与医疗保健系统的意愿。数字素养较低的患者、第一语言不是英语的患者以及非语言患者可能会发现 GenAI 难以使用。因此,虽然该技术原则上可能“有效”,但如果该技术不能平等地为所有用户工作,这仍然可能造成伤害。
这里的要点是,通过传统的安全分析方法很难预先预测 GenAI 的此类风险。这些涉及了解技术失败如何可能会造成伤害在特定的背景下。医疗保健可以受益匪浅得益于 GenAI 和其他人工智能工具的采用。
但在这些技术能够更广泛地应用于医疗保健之前,安全保证和监管需要对这些技术的使用地点和方式的发展做出更加敏感的反应。
GenAI 工具的开发人员和监管机构也有必要与...一起工作社区使用这些技术来开发可以在临床实践中定期、安全使用的工具。