OC

Knowledge OS
鹦鹉螺口语
使用 MedGemma 1.5 进行下一代医学图像解读,并使用 MedASR 将医学语音转为文本
2026-01-13 20:57:52 · 英文原文

使用 MedGemma 1.5 进行下一代医学图像解读,并使用 MedASR 将医学语音转为文本

人工智能在医疗保健领域的采用正在急剧加速,医疗保健行业在是整体经济增速的两倍。为了支持这一转变,谷歌去年发布了MedGemma 集合通过我们的开放式医疗生成人工智能模型健康人工智能开发者基金会(HAI-DEF)计划。MedGemma 等 HAI-DEF 模型旨在作为开发人员评估和适应其医疗用例的起点,并且可以轻松扩展通过 Vertex AI 的 Google Cloud。MedGemma 版本的反响令人难以置信,下载量达数百万次,浏览量达数百次社区构建的变体发表于《拥抱的脸》。

今天,我们将借助这一势头,发布麦德杰玛 1.5 4B并推出MedGemma 影响力挑战赛黑客马拉松卡格尔。在社区直接反馈的指导下,此模型更新使开发人员能够更有效地将 MedGemma 应用于涉及多种医学成像模式的应用程序:

  • 高维医学成像:计算机断层扫描 (CT)、磁共振成像 (MRI) 和组织病理学
  • 纵向医学成像:胸部 X 射线时间序列回顾
  • 解剖定位:胸部 X 光检查中解剖特征的定位
  • 医疗文件理解:从医学实验室报告中提取结构化数据

与 MedGemma 1 4B 相比,MedGemma 1.5 4B 还提高了文本、医疗记录和 2D 图像核心功能的准确性。我们今天发布更新后的 4B 模型大小,为开发人员提供一个理想的计算效率起点,该起点足够小,可以离线运行,并且开发人员可以继续使用我们的MedGemma 1 27B 参数模型用于更复杂的基于文本的应用程序。MedGemma 1.5 4B 模型和性能基准的完整详细信息见MedGemma 1.5 模型卡。我们最近还发布了

医学ASR(在抱脸顶点人工智能),一种新的开放式自动语音识别(ASR)模型,针对医疗听写进行了微调。MedASR 的初始版本使开发人员能够将医学语音转换为文本,并与 MedGemma 无缝配对以执行高级推理任务。

MedGemma 1.5、MedASR 和所有其他 HAI-DEF 模型,例如MedSigLIP 图像编码器,仍然免费用于研究和商业用途,并且可以从以下位置下载抱脸或经过培训并适应云中的可扩展应用程序顶点人工智能

MedGemma 影响挑战

我们希望鼓励开发人员探索 MedGemma 模型的其他创造性和有影响力的用途,以改变医疗保健。为此,我们很高兴地宣布MedGemma 影响力挑战赛,由 Kaggle 主办的黑客马拉松,奖金为 100,000 美元。该黑客马拉松向所有开发者开放,并提供了在 MedGemma 和 HAI-DEF 的基础上展示人工智能在医疗保健和生命科学领域的潜力的机会。我们期待你们大家将建造什么!

改进了医学成像用例的性能

MedGemma 是从头开始设计的多模式模型,反映了医学的多模式性质。MedGemma 1 支持解释二维医学图像,包括胸部 X 光、皮肤科图像、眼底图像和组织病理学斑块。

通过 MedGemma 1.5,我们正在扩展对高维医学成像的支持,从三维体积表示开始CT成像核磁共振成像,以及整个幻灯片组织病理学成像。开发人员可以创建应用程序,其中提供多个切片(用于 CT 或 MRI)或多个补丁(用于组织病理学)作为输入以及描述任务的提示。

在内部基准上,MedGemma 1.5 在疾病相关 CT 结果分类方面比 MedGemma 1 提高了 3%(61% vs. 58%),在疾病相关 MRI 结果分类方面提高了 14%(65% vs. 51%)(按结果平均计算)。此外,根据组织病理学幻灯片和相关发现的内部多样化基准,MedGemma 1.5 的预测的保真度基于胭脂-L仅具有一张组织病理学载玻片的病例得分比 MedGemma 1 提高了 0.47(0.49 比 0.02),与特定任务所获得的 0.498 得分相匹配多路径模型

这种新的高维支持是自然演化的CT基础,我们之前基于 API 的 CT 嵌入生成工具。据我们所知,MedGemma 1.5是第一个公开发布的开放式多模态大语言模型,可以解释高维医学数据,同时还保留解释一般二维数据和文本的能力。尽管这些功能还处于早期阶段并且还不完善,但开发人员将通过根据自己的数据微调 MedGemma 模型来获得更好的结果,我们希望随着时间的推移不断改进 MedGemma 模型。我们发布了教程笔记本,说明如何使用这种高维图像功能进行 CT(抱脸,模型花园)和组织病理学(抱脸,模型花园)。

在其他几种形式的医学图像判读方面,MedGemma 1.5 4B 基线性能也比 MedGemma 1 4B 显着提高:

  • 解剖定位:胸部 X 光检查中解剖特征的定位;提高 35%并集上的交集胸部影像基因组基准(38% 对比 3%)。看看我们的解剖定位教程笔记本
  • 纵向医学成像:胸部 X 射线时间序列回顾;宏观精度提高 5%MS-CXR-T基准(66% 对比 61%)。请参阅下面的示例和我们的纵向医学成像教程笔记本
  • 医学图像解读:我们针对 CXR、皮肤病学、组织病理学和眼科的内部单图像基准;提高了 3%(62% 比 59%)。
  • 实验室报告提取:从医学实验室报告中提取结构化数据(实验室类型、值、单位);根据实验室报告的内部基准,检索宏 F1 提高了 18%(78% 与 60%)。

此外,部署在谷歌云现在包括完整的 DICOM 支持,使得 MedGemma 更容易适应医学成像应用。

文本功能的改进

除了改进对医学图像的支持之外,我们还努力改进 MedGemma 的基线医学文本功能。通过添加新的训练数据集和训练技术,MedGemma 1.5 4B 比 MedGemma 1 4B 提高了 5%医学质量保证(69% vs. 64%),基于文本的 EHR 问答提高了 22%电子健康档案质量保证(90% 与 68%)。

MedASR:医疗自动语音识别的开放模型

虽然文本目前是大型语言模型的主要界面,但口头交流在医疗保健的许多方面仍然至关重要,包括医疗听写以及患者和提供者之间的实时对话。语音还提供了一种更自然的与语言模型交互的方式。

为了支持这些需要模型熟悉医疗保健专业词汇的用例,我们开发了医学ASR用于转录医学领域语音的语音到文本模型。MedASR 既可用于转录医学听写,也可作为生成 MedGemma 提示的自然方法。我们将 MedASR 的性能与耳语大-v3,一个多面手 ASR 模型,发现 MedASR 在以下方面的错误减少了 58%胸部X光检查(5.2% vs. 12.5% 单词错误率,世界教育联盟),不同专业和演讲者的内部医疗听写基准错误减少了 82%(WER 分别为 5.2% 和 28.2%)。我们发布了一系列教程笔记本帮助开发人员创建和调整自己的系统,将 MedASR 的音频理解与 MedGemma 1.5 的临床推理相结合。了解更多信息MedASR 模型卡

开发人员如何使用 MedGemma

我们看到世界各地的健康科技初创公司和开发商利用 MedGemma 加速其在广泛用例和环境中的研究和产品开发。

作为一个例子,昆迈亚洲已将 MedGemma 改编用于询问CPG,马来西亚 150 多个临床实践指南的对话界面。根据马来西亚卫生部,对话界面使马来西亚临床实践指南在日常临床决策支持中更加实用,并且 MedGemma 的多模式医学图像扩展在试点部署中特别受到好评。

此外,台湾国家健康保险管理局已应用 MedGemma 来评估肺癌手术的术前评估。他们通过使用 MedGemma 从超过 30,000 份病理报告和非结构化数据中提取关键数据,进行统计分析以评估患者的术前医疗状况。这项工作旨在为政策决策提供信息,以改善手术切除的决策,从而改善患者的治疗结果。

MedGemma 也曾广泛引用自今年早些时候发布以来,在医学人工智能研究文章中,与其他模型相比,作为基础模型具有优势理解医学文本,多学科团队决策,乳房X光检查报告,以及其他临床场景。

开始使用

您可以通过以下方式访问 MedGemma 的所有变体拥抱脸系列Google Cloud 上的 Vertex AI。MedASR 目前可在抱脸顶点人工智能。要展示您对下一代医疗人工智能应用的想法,请查看MedGemma 影响力挑战赛

访问我们的MedGemma GitHub 存储库探索我们扩展的教程集。其中包括我们现有的关于运行推理的教程和洛拉基于监督的微调和新的强化学习教程,一种在学习复杂任务时特别有效且不影响现有模型能力的调整方法。

参观海德夫网站有关 MedGemma 1.5 和其他健康 AI 开发者基础模型的资源。要了解最新动态,请注册我们的时事通讯。如需技术支持,请使用海德夫论坛

我们对社区将使用这些新模型构建的内容感到非常兴奋,并欢迎您反馈

数据集注释

模型在公共和私人去识别数据集上进行训练和评估。谷歌及其合作伙伴利用经过严格匿名或去识别化的数据集,以确保保护个人研究参与者和患者隐私。

免责声明

HAI-DEF 模型(包括 MedGemma 和 MedASR)旨在用作起点,以实现涉及医学文本和图像的下游医疗保健应用程序的高效开发。如果开发人员未针对其特定用例进行适当的验证、调整和/或进行有意义的修改,则不应使用 HAI-DEF 模型。这些模型生成的输出并不旨在直接为临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用提供信息。这里报告的性能基准强调了基线功能,并不意味着 MedGemma 在任何特定的医疗应用中都可以安全使用。模型输出可能不准确,超出此处显示的范围。所有模型输出均应被视为初步结果,并需要独立验证、临床相关性以及通过既定的研究和开发方法进行进一步研究。请参考使用条款禁止使用政策了解更多详情。

致谢

MedGemma、MedGemma 影响力挑战赛和 MedASR 是 Google 团队之间合作的产物。我们感谢为这项工作做出贡献的许多人,包括 Health AI、Gemma 和 Kaggle 团队的工程和跨职能成员,以及 Google Research 和 Google DeepMind 的赞助商。

关于《使用 MedGemma 1.5 进行下一代医学图像解读,并使用 MedASR 将医学语音转为文本》的评论

暂无评论

发表评论

摘要

谷歌通过其健康人工智能开发者基金会(HAI-DEF)计划发布了 MedGemma 1.5 4B,这是其开放医疗生成人工智能模型的更新版本。此版本增强了模型的高维医学成像、纵向成像、解剖定位和医学文档理解的能力,提高了这些领域的准确性。该公司还在 Kaggle 上发起了 MedGemma Impact Challenge,奖金为 10 万美元,以鼓励开发人员使用 MedGemma 模型构建创新的医疗保健应用程序。此外,还发布了一种新的开放式自动语音识别模型 MedASR,用于微调医疗听写任务。这些更新和举措旨在通过提供可用的工具和资源来加速人工智能在医疗保健中的使用。