基于语言模型的AI系统,例如表达医疗情报探险家(Amie,我们的研究诊断对话AI代理最近出版了自然)在进行基于文本的医学诊断对话方面表现出了巨大的希望,但是在这些对话过程中如何整合多模式数据的关键方面仍然没有探索。即时消息传递平台是通信的流行工具,允许静态多模式信息(例如,图像和文档)丰富讨论,并且在医疗环境中也报告了它们的采用。这种讨论多模式信息的能力在医学中尤其重要,在医学中,调查和测试对于有效的护理至关重要,并且可以大大为咨询提供依据。因此,LLM是否可以进行诊断性临床对话,以结合这种更复杂的信息类型是研究的重要领域。
在我们的新工作,我们可以在临床对话中智能要求,解释和理由智能,解释和理由提高AMIE,并致力于准确的诊断和管理计划。为此,以多模式为基础双子座2.0闪光灯作为核心组成部分,我们开发了一个代理系统,该系统基于对话的阶段及其对基础诊断的不确定性来优化其响应。这种组合导致了一个历史过程,可以更好地模拟现实世界中临床实践中常见的历史记录结构。
通过专家评估适应客观结构化临床检查(OSCES)是一项全球在医学教育中使用的标准化评估,我们将AMIE的表现与初级保健医生(PCP)进行了比较,并评估了其在许多多模式患者场景上的行为。进一步,对双子座2.5闪存通过整合最新的基本模型来指出更多改进AMIE的可能性。
我们向艾米介绍了两个关键进步。首先,我们开发了一个多模式的州感知推理框架。这使Amie可以根据其内部状态调整其反应,该状态在对话中的特定点捕获了对患者的知识,并能够有效地收集信息以获得适当的诊断(例如,请求多模式信息,例如皮肤照片,以解决其知识中的任何差距)。其次,为了在AMIE系统中为关键设计选择提供信息,我们创建了一个模拟环境,以进行对话评估,其中Amie基于基于现实世界数据集的多模式场景与模拟患者进行对话,例如sc皮肤科图像数据集。
实际的临床诊断对话遵循结构化但灵活的路径。临床医生在形成潜在诊断时有条不紊地收集信息。他们可以从策略性地要求和解释来自多种多模式数据的更多细节(例如,皮肤照片,实验室结果或ECG测量值)。鉴于这样的新证据,他们可以提出适当的澄清问题来解决信息差距并描述诊断可能性。
为了使Amie具有类似的对话能力,我们介绍了一个新颖的州感知阶段过渡框架,该框架策划了对话流程。该框架利用Gemini 2.0 Flash,基于反映不断发展的患者状态,诊断假设和不确定性的中间模型输出,动态调整AMIE的响应。这使Amie可以在需要时要求相关的多模式工件,准确地解释其发现,将这些信息无缝地集成到正在进行的对话中,并使用它来完善诊断并指导进一步的询问。这模拟了经验丰富的临床医生使用的结构化的自适应推理过程。
为了评估多模式AMIE,我们通过105个病例方案进行了一项远程专家研究,其中有验证的患者参与者以OSCE研究的方式与AMIE或初级保健医生(PCP)进行对话。会议是通过聊天界面进行的,患者演员可以上传多模式工件(例如,皮肤照片),模仿多媒体即时消息平台的功能。我们引入了一个框架,用于在诊断对话中评估多模式能力,以及其他临床意义有意义的指标,例如历史记录,诊断准确性,管理推理,沟通技巧和同情心。
我们的研究表明,AMIE可以在模拟即时咨询中解释多模式数据方面胜过PCP。它在咨询质量的其他关键指标(例如诊断准确性,管理推理和同理心)中也得分更高。在此研究环境中,AMIE比PCP产生了更准确,更完整的差异诊断:
我们询问了皮肤病学,心脏病学和内科医师的患者参与者和专业医生,以评估许多尺度的对话。我们发现,在大多数评估专栏中,AMIE平均被评为高度高。值得注意的是,专家还为图像解释和推理的质量以及其他有效的医学对话的其他关键属性分配了更高的分数,例如差异诊断的完整性,管理计划的质量以及适当地升级(例如,进行紧急治疗)的能力。艾米(Amie)与所提供的图像伪像不一致的艾米(Amie)幻觉(流浪)发现与PCP幻觉的程度上没有区别。从病人的角色角度来看,艾米经常被认为更加善解人意和值得信赖。更全面的发现可以在纸。
双子座模型的功能正在不断前进,那么在利用更新的,更有能力的基本模型时,多模式AMIE的性能将如何变化?为了调查这一点,我们使用我们的对话模拟框架进行了初步评估,比较了建立在新的基础上的多模式AMIE的性能双子座2.5闪存在我们的主要专家研究中,对当前Gemini 2.0 Flash版本进行了严格验证的模型。
上图中总结的结果提出了进一步改进的可能性。值得注意的是,使用Gemini 2.5 Flash的AMIE变体在TOP-3诊断准确性(0.65 vs. 0.59)和管理计划适当性(0.86 vs. 0.77)方面表现出统计学上显着的提高。另一方面,信息收集的性能保持一致(0.81),并且在当前高水平(0.99)中保持了非凝固率。这些初步发现表明,艾米的未来迭代可能会受益于基本基本模型的进步,这可能会导致更准确和有用的诊断对话。
但是,我们强调,这些发现来自自动化评估,通过专家医师审查进行严格的评估对于确认这些绩效益处至关重要。
多模式感知和推理的整合标志着医学对话AI的能力迈出的有用的一步。通过使Amie能够“看到”并解释由双子座的先进能力支持的对临床实践至关重要的视觉和文献证据,这项研究表明,更有效地帮助患者和临床医生获得高质量护理所需的AI能力。我们的研究强调了我们对负责任创新的承诺,并对现实世界中的适用性和安全性进行了严格的评估。
此处描述的研究是Google Research和Google DeepMind的许多团队的共同工作。我们感谢所有合着者: CJ Park,Tim Strother,Yong Cheng,Wei-Hung Weng,David Stutz,Nenad Tomasev,David G.T.巴雷特(Barrett),阿尼尔·帕雷普(Anil Palepu),瓦伦丁·列(Valentinliã©Kohli,S。M. Ali Eslami,Joã«Lle Barral,Adam Rodman,Vivek Natarajan,Mike Schaekermann,Tao Tu,Alan Karthikesalingam和Ryutaro Tanno。