英语轻松读发新版了,欢迎下载、更新

AMIE获得愿景:多模式诊断对话的研究AI代理

2025-05-01 21:00:31 英文原文

基于语言模型的AI系统,例如表达医疗情报探险家(Amie,我们的研究诊断对话AI代理最近出版了自然)在进行基于文本的医学诊断对话方面表现出了巨大的希望,但是在这些对话过程中如何整合多模式数据的关键方面仍然没有探索。即时消息传递平台是通信的流行工具,允许静态多模式信息(例如,图像和文档)丰富讨论,并且在医疗环境中也报告了它们的采用。这种讨论多模式信息的能力在医学中尤其重要,在医学中,调查和测试对于有效的护理至关重要,并且可以大大为咨询提供依据。因此,LLM是否可以进行诊断性临床对话,以结合这种更复杂的信息类型是研究的重要领域。

在我们的新工作,我们可以在临床对话中智能要求,解释和理由智能,解释和理由提高AMIE,并致力于准确的诊断和管理计划。为此,以多模式为基础双子座2.0闪光灯作为核心组成部分,我们开发了一个代理系统,该系统基于对话的阶段及其对基础诊断的不确定性来优化其响应。这种组合导致了一个历史过程,可以更好地模拟现实世界中临床实践中常见的历史记录结构。

通过专家评估适应客观结构化临床检查(OSCES)是一项全球在医学教育中使用的标准化评估,我们将AMIE的表现与初级保健医生(PCP)进行了比较,并评估了其在许多多模式患者场景上的行为。进一步,对双子座2.5闪存通过整合最新的基本模型来指出更多改进AMIE的可能性。

推进艾米(Amie)进行多模式推理

我们向艾米介绍了两个关键进步。首先,我们开发了一个多模式的州感知推理框架。这使Amie可以根据其内部状态调整其反应,该状态在对话中的特定点捕获了对患者的知识,并能够有效地收集信息以获得适当的诊断(例如,请求多模式信息,例如皮肤照片,以解决其知识中的任何差距)。其次,为了在AMIE系统中为关键设计选择提供信息,我们创建了一个模拟环境,以进行对话评估,其中Amie基于基于现实世界数据集的多模式场景与模拟患者进行对话,例如sc皮肤科图像数据集。

模仿经验丰富的临床医生的历史:国家感知推理

实际的临床诊断对话遵循结构化但灵活的路径。临床医生在形成潜在诊断时有条不紊地收集信息。他们可以从策略性地要求和解释来自多种多模式数据的更多细节(例如,皮肤照片,实验室结果或ECG测量值)。鉴于这样的新证据,他们可以提出适当的澄清问题来解决信息差距并描述诊断可能性。

为了使Amie具有类似的对话能力,我们介绍了一个新颖的州感知阶段过渡框架,该框架策划了对话流程。该框架利用Gemini 2.0 Flash,基于反映不断发展的患者状态,诊断假设和不确定性的中间模型输出,动态调整AMIE的响应。这使Amie可以在需要时要求相关的多模式工件,准确地解释其发现,将这些信息无缝地集成到正在进行的对话中,并使用它来完善诊断并指导进一步的询问。这模拟了经验丰富的临床医生使用的结构化的自适应推理过程。

加速开发:强大的模拟环境

为了实现快速迭代和强大的自动化评估,我们开发了一个全面的模拟框架:

  1. 我们生成现实的患者场景,包括从数据集中得出的详细配置文件和多模式伪像PTB-XLsc,使用与Web搜索的Gemini模型一起使用合理的临床环境增强。
  2. 然后,我们模拟了AMIE和遵守该方案的患者代理之间的逐个转向多模式对话。
  3. 最后,我们使用自动评估剂来评估这些模拟对话,以预定义的临床标准,例如诊断准确性,信息收集有效性,管理计划适当性和安全性(例如幻觉检测)。

专家评估:多模式虚拟OSCE研究

为了评估多模式AMIE,我们通过105个病例方案进行了一项远程专家研究,其中有验证的患者参与者以OSCE研究的方式与AMIE或初级保健医生(PCP)进行对话。会议是通过聊天界面进行的,患者演员可以上传多模式工件(例如,皮肤照片),模仿多媒体即时消息平台的功能。我们引入了一个框架,用于在诊断对话中评估多模式能力,以及其他临床意义有意义的指标,例如历史记录,诊断准确性,管理推理,沟通技巧和同情心。

结果:AMIE在多模式咨询中匹配或超过PCP性能

我们的研究表明,AMIE可以在模拟即时咨询中解释多模式数据方面胜过PCP。它在咨询质量的其他关键指标(例如诊断准确性,管理推理和同理心)中也得分更高。在此研究环境中,AMIE比PCP产生了更准确,更完整的差异诊断:

我们询问了皮肤病学,心脏病学和内科医师的患者参与者和专业医生,以评估许多尺度的对话。我们发现,在大多数评估专栏中,AMIE平均被评为高度高。值得注意的是,专家还为图像解释和推理的质量以及其他有效的医学对话的其他关键属性分配了更高的分数,例如差异诊断的完整性,管理计划的质量以及适当地升级(例如,进行紧急治疗)的能力。艾米(Amie)与所提供的图像伪像不一致的艾米(Amie)幻觉(流浪)发现与PCP幻觉的程度上没有区别。从病人的角色角度来看,艾米经常被认为更加善解人意和值得信赖。更全面的发现可以在

发展基本模型:双子座2.5 Flash的初步结果

双子座模型的功能正在不断前进,那么在利用更新的,更有能力的基本模型时,多模式AMIE的性能将如何变化?为了调查这一点,我们使用我们的对话模拟框架进行了初步评估,比较了建立在新的基础上的多模式AMIE的性能双子座2.5闪存在我们的主要专家研究中,对当前Gemini 2.0 Flash版本进行了严格验证的模型。

上图中总结的结果提出了进一步改进的可能性。值得注意的是,使用Gemini 2.5 Flash的AMIE变体在TOP-3诊断准确性(0.65 vs. 0.59)和管理计划适当性(0.86 vs. 0.77)方面表现出统计学上显着的提高。另一方面,信息收集的性能保持一致(0.81),并且在当前高水平(0.99)中保持了非凝固率。这些初步发现表明,艾米的未来迭代可能会受益于基本基本模型的进步,这可能会导致更准确和有用的诊断对话。

但是,我们强调,这些发现来自自动化评估,通过专家医师审查进行严格的评估对于确认这些绩效益处至关重要。

限制和未来的方向

  • 现实世界验证的重要性:这项研究探索了使用患者参与者进行OSCE风格评估中的仅研究系统,该系统的多模式数据,疾病,患者表现,特征和现实世界中护理的特征和关注点的复杂性和程度大大不足。临床医生的大量专业知识也不足,因为它在陌生的环境中没有通常的练习工具和条件。重要的是要谨慎地解释研究并避免过度笼统化。持续的评估研究和负责任的发展对于建立可以安全有效地增加医疗保健提供的AI功能的研究至关重要。因此,在现实世界翻译之前需要进一步的研究,以安全地提高我们对艾米对临床工作流程和患者结果的潜在影响的理解,并在现实世界中的约束和挑战下表征和提高系统的安全性和可靠性。作为朝着这一目标的第一步,我们已经开始预期同意研究与贝丝以色列执事医疗中心一起,将在真正的临床环境中评估艾米。
  • 实时音频视频交互:在远程医疗实践中,医生和患者更常见的实时多模式信息具有更丰富的实时多模式信息,而基于语音的互动则与视频通话相比。基于聊天的互动不那么普遍,并且固有地限制了医师和患者共享非语言提示,进行视觉评估并进行指导检查的能力,所有这些都易于获得,并且通常对于在远程咨询中提供高质量的护理至关重要。对AMIE的基于AMIE的实时音频互动的开发和评估仍然是重要的未来工作。
  • AMIE系统的演变:这里介绍的新的多模式能力补充了其他正在进行的进步,例如纵向疾病的能力管理推理我们最近分享了。这些里程碑将我们朝着一个统一系统的进步绘制了我们对医疗保健中对话AI很重要的新的,严格评估的功能的统一系统。

结论:迈向医疗保健中更有能力和可访问的AI

多模式感知和推理的整合标志着医学对话AI的能力迈出的有用的一步。通过使Amie能够“看到”并解释由双子座的先进能力支持的对临床实践至关重要的视觉和文献证据,这项研究表明,更有效地帮助患者和临床医生获得高质量护理所需的AI能力。我们的研究强调了我们对负责任创新的承诺,并对现实世界中的适用性和安全性进行了严格的评估。

致谢

此处描述的研究是Google Research和Google DeepMind的许多团队的共同工作。我们感谢所有合着者: CJ Park,Tim Strother,Yong Cheng,Wei-Hung Weng,David Stutz,Nenad Tomasev,David G.T.巴雷特(Barrett),阿尼尔·帕雷普(Anil Palepu),瓦伦丁·列(Valentinliã©Kohli,S。M. Ali Eslami,Joã«Lle Barral,Adam Rodman,Vivek Natarajan,Mike Schaekermann,Tao Tu,Alan Karthikesalingam和Ryutaro Tanno。

关于《AMIE获得愿景:多模式诊断对话的研究AI代理》的评论


暂无评论

发表评论

摘要

###多模式AMIE系统的研究结果摘要#### 概述:该研究探讨了多模式感知和推理在称为AMIE的对话AI系统中的整合,该系统由Gemini Models的高级功能提供支持(2.0 Flash和2.5 Flash)。该研究旨在通过解释对医学实践至关重要的视觉和文献证据来提高AI在临床环境中的有效性。####关键发现:1。**带有双子座的性能指标2.0 Flash **: - 前3名诊断精度:0.59 - 管理计划适当性:0.77 - 信息收集:0.81 - 非隔离率(可靠性):0.992。** Gemini 2.5 Flash **的初步结果**: - 前3个诊断精度提高到0.65(具有统计学意义) - 管理计划适当性提高到0.86(具有统计意义) - 信息收集在0.81保持一致 - 非隔离率保持高水平为0.99####限制和未来方向: - **现实世界验证**:当前的研究使用患者参与者使用OSCE风格的评估,这并不能完全捕获现实世界临床环境的复杂性。 - **实时音频视频互动**:远程医疗通常涉及当前在AMIE中发育不足的更丰富的多模式交互(Audio-Video调用)。 - **纵向疾病管理**:未来的研究旨在将纵向疾病管理能力纳入艾米。#### 结论:多模式感知和推理的整合代表了医疗保健中对话AI的重要一步。通过使像Amie这样的AI系统能够解释视觉和文献证据,它可以增强其支持高质量医疗服务的效用。但是,在可以安全有效地进行广泛的临床采用之前,实际验证仍然至关重要。####致谢:这项研究是一项合作的努力,涉及Google Research和DeepMind的多个团队,文档末尾列出了各种合着者的贡献。该摘要强调了多模式AI在医疗保健中的进步,同时强调了正在进行的评估和开发以确保在现实世界中的临床环境中的安全性和可靠性的重要性。