作者:Anita Chakraverty
大语言模型 (LLM) 可以使用存储在临床记录中的大量信息来衡量初级保健的质量,并标记治疗注意力缺陷多动障碍 (ADHD) 的儿童药物中需要改进的领域。
开源 LLaMA 模型,描述于儿科,能够评估多动症药物处方后副作用监测的密切程度以及临床医生遵守实践指南的情况。
“该模型在识别包含副作用查询记录的笔记方面表现出了出色的性能,”斯坦福大学儿科助理教授、研究员、医学博士 Yair Bannett 说。
Bannett 解释说,捕获临床实践的传统方法(例如图表审查)是劳动密集型的,并且不利于实时改进。
法学硕士是一种人工智能,它提供了大规模评估护理质量的机会,这可能导致及时发现改进目标。
Bannett 和团队选择通过将开源 LLaMA 模型应用于 ADHD 护理的一个要素来测试法学硕士的这种新颖应用,ADHD 是初级保健中常见的一种常见疾病。
在一项回顾性研究中,他们查看了 1201 名 6 至 11 岁儿童的医疗记录,这些儿童在同一医疗网络的 11 家儿科初级保健诊所就诊。所有儿童都至少有一种多动症诊断,并且至少有两张多动症药物处方。
两名临床医生审查了 119 名参与者的随机样本的图表,以确定该组的 501 份临床记录是否包含显示副作用监测的文档。
然后对模型进行 411 个笔记(相当于样本的 80%)的训练,其余 90 个笔记保留在“保留”组中,以检查模型是否可以找到这些查询。
然后,该团队将 LLM 部署到其余 1189 名患者身上,在患者图表中纳入 15,127 个注释,并在包含 363 个注释的“部署测试”中检查其性能。
LLaMA 对包含副作用调查的笔记进行了准确分类,在保留测试集中的敏感性为 87.2%,特异性为 86.3%,曲线下面积为 0.93。
参与者的性别或保险状况不存在模型偏差,无论是否记录副作用询问,特征大多相似。
电话咨询中记录的副作用问题明显低于诊所或远程医疗中的副作用,分别为 51.9% 和 73.0%。
在 11 个初级保健机构 (PCP) 中的 7 个中,超过一半的 ADHD 咨询是通过电话完成的,但其中只有两个机构定期记录询问副作用的情况。
“在与 PCP 交谈时,我们了解到,只有这两种做法具有在通过电话接收补充请求时询问副作用的工作流程,”Bannett 指出。
与非兴奋剂处方相比,服用兴奋剂后的询问也更常见,分别为 61.4% 和 48.5%。总体而言,999 名参与者接受了兴奋剂药物治疗,54 名参与者接受了非兴奋剂药物治疗,148 名参与者接受了两种类型的药物治疗。
巴雷特指出,在与 PCP 交谈时,许多人对非刺激性管理缺乏信心。
在该研究附带的一篇评论文章中,来自宾夕法尼亚大学的医学博士 Robert Grundmeier 和医学博士 Kevin Johnson 称这是一项“令人信服的研究”,证明了法学硕士在提高护理评估质量方面的潜力。
他们认为,“将开源法学硕士应用于来自社区儿科网络的临床记录,可以提供一种可扩展的解决方案,用于监测临床医生遵守多动症药物处方后副作用管理指南的情况”。
– 这项工作增进了我们对人工智能在自动化和规模化临床实践评估中的作用的理解,克服了传统的局限性,例如图表审查的劳动密集型性质。 –