英语轻松读发新版了,欢迎下载、更新

Medgemma:我们最有能力的健康AI开发模型

2025-07-09 18:00:53 英文原文

医疗保健越来越拥抱AI,以改善工作流程管理,患者沟通以及诊断和治疗支持。至关重要的是,这些基于AI的系统不仅表现出色,而且具有高效和隐私性。考虑到这些考虑因素,我们建立并最近发布了健康AI开发人员基金会(hai-def)。HAI-DEF是一系列轻巧的开放模型,旨在为开发人员提供自身的健康研究和应用程序开发的强大起点。由于HAI-DEF模型是开放的,因此开发人员保留对隐私,基础架构和对模型进行修改的完全控制。在可能今年,我们扩展了Hai-def系列Medgemma,基于生成模型的集合Gemma 3旨在加速医疗保健和Lifesciences AI开发。

今天,我们很自豪地宣布该系列中的两个新型号。第一个是Medgemma 27B多模式,它通过增加对复杂的多模式和纵向电子健康记录解释的支持来补充先前发布的4B多模式和27B文本模型。第二个新模型是Medsiglip,这是一个轻巧的图像和文本编码器,用于分类,搜索和相关任务。Medsiglip基于为4B和27B Medgemma模型提供动力的相同图像编码器。

Medgemma和Medsiglip是医学研究和产品开发的强大起点。Medgemma对需要生成免费文本的医学文本或成像任务有用,例如报告生成或视觉问题回答。建议将Medsiglip用于成像任务,涉及分类或检索等结构化输出。以上所有型号都可以在单个GPU上运行,并且Medgemma 4B和Medsiglip甚至可以适应移动硬件上运行。

可以在Medgemma和Medsiglip开发和评估的全部详细信息中找到Medgemma技术报告

Medgemma:健康的多模式生成模型

Medgemma集合包括4B和27B尺寸的变体,现在都接受图像和文本输入并产生文本输出。

  • Medgemma 4B多模式:Medgemma 4B在64.4%上获得64.4%MEDQA,它将其排名构成最好的非常小(<8b)的开放模型。在一项无盲的研究中,美国董事会认证的放射科医生对Medgemma 4B产生的胸部X射线报告中有81%的胸部X射线报告具有足够的准确性,可以与原始的放射线医生报告相比,导致类似的患者管理。此外,它还在医学图像分类任务上达到了与特定于任务的最新模型竞争的医学图像分类任务。
  • Medgemma 27b文本Medgemma 27b多模式:基于内部和已发表的评估,Medgemma 27B模型是MEDQA医学知识和推理基准的表现最好的小型开放模型(<50b)之一;文本变体得分为87.7%,在3点以内DeepSeek R1,一个领先的开放模型,但大约是推理成本的十分之一。Medgemma 27B模型具有各种基准的较大模型的竞争力,包括检索和解释电子健康记录数据。

我们通过训练医学优化的图像编码器开发了这些模型(如下所述,独立发行为Medsiglip),然后训练相应的4B和27B版本Gemma 3模型关于医疗数据。在此过程中,我们小心翼翼地保留了Gemma的一般(非医学)功能。这使Medgemma可以在混合医学和非医学信息并保留非英语语言的指导跟踪和能力的任务上表现良好。

这些模型的一个关键方面是它们的适应性。例如,经过微调后,Medgemma 4B能够在胸部X射线报告中实现最先进的性能,并具有radgraph f1得分为30.3。开发人员在目标应用程序上提高性能的直接能力突出了Medgemma的价值,作为希望为医疗保健建立AI的开发人员的起点。

Medsiglip:医疗保健的专业图像编码器

Medsiglip是仅使用400m参数的轻巧图像编码器语言图像预训练的sigmoid损失(siglip)体系结构。Medsiglip通过使用多种医学成像数据进行调整,包括胸部X射线,组织病理学补丁,皮肤病学图像和眼底图像,允许该模型学习特定于这些模式的细微特征。重要的是,我们还要注意确保Medsiglip在对原始Siglip模型的自然图像上保留强大的性能,并保持其多功能性。

Medsiglip旨在通过将它们编码为常见的嵌入空间来弥合医学图像和医学文本之间的差距。与特定于任务的视觉嵌入模型相比,Medsiglip的分类性能相似或改进了分类性能,同时在医学成像域中的用途更广泛。

Medsiglip是:

  • 传统图像分类:构建表演剂模型以对医学图像进行分类。
  • 零拍图像分类:通过将图像嵌入与文本类标签的嵌入进行比较,对图像进行分类。
  • 语义图像检索:从大型医学图像数据库中查找视觉或语义上相似的图像。

开放模型的力量

由于Medgemma集合已经开放,因此可以下载,构建和微调以支持开发人员的特定需求。特别是在医疗领域,这种开放方法比基于API的模型具有多种不同的优势:

  • 灵活性和隐私:模型可以在开发人员首选环境中的专有硬件上运行,包括在Google Cloud Platform上或本地可以解决隐私问题或机构政策。
  • 高性能定制:模型可以进行微调和修改,以在目标任务和数据集上实现最佳性能。
  • 可重复性和稳定性:由于模型是作为快照分布的,因此它们的参数被冷冻,并且与API不同,随着时间的流逝不会意外变化。这种稳定性对于一致性和可重复性至关重要的医学应用尤为重要。

为了确保广泛的可访问性和易用性,我们拥抱的脸收藏在流行中提供Medsiglip和Medgemma拥抱脸部安全格式。

开发人员正在使用Medgemma&Medsiglip构建什么

研究人员和开发人员一直在探索其用例的Medgemma模型,并发现该模型擅长解决一些关键问题。开发人员在深处在美国马萨诸塞州,美国一直在探索Medsiglip,以改善其胸部X射线分盘和结节检测。研究人员在Chang Gung纪念医院台湾指出,Medgemma与传统的中文医学文献合作,可以很好地回答医务人员的问题。开发人员在Tap Health在印度古尔冈(Gurgaon),关于Medgemma的卓越医疗基础的评论,指出了其对需要对临床环境敏感的任务的可靠性,例如总结进度注释或建议指导指南的轻推。

我们很高兴能继续从开发人员那里了解这些和其他用例,因为他们创建了使用Medgemma和Medsiglip的下一代健康AI工具。

开始并探索

为了帮助开发人员开始,我们在Github上提供了详细的笔记本MedgemmaMedsiglip这表明了如何在拥抱脸上为推理和微调创建Medsiglip和Medgemma实例。当开发人员准备扩大规模时,可以将Medgemma和Medsiglip无缝部署顶点AI作为专用端点,我们在Github中提供了如何在这些端点上进行推断的示例。我们还添加了一个新演示到我们的Hai-def拥抱脸演示集这表明了如何将Medgemma构建到一个申请中,以简化病人预约之前收集的访问前信息。

请参阅下表,以了解Medgemma家族的哪种模型非常适合您的用例。

请访问HAI-DEF网站对于这些资源,并了解有关Medgemma收集和其他健康AI开发人员基础模型的更多信息。这HAI-DEF论坛可用于问题或反馈。

培训数据集中的注释

模型经过了公共和私人去识别数据集的培训。Google及其合作伙伴利用已被严格匿名化或取消识别的数据集,以确保保护单个研究参与者和患者隐私。

免责声明

Medgemma和Medsiglip旨在用作起点,以有效地开发涉及医学文本和图像的下游医疗保健应用程序。如果没有适当的验证,适应和/或对开发人员进行特定用例的有意义的修改,则无意使用Medgemma和Medsiglip。这些模型产生的输出并非旨在直接为临床诊断,患者管理决策,治疗建议或任何其他直接临床实践应用提供信息。性能基准测试强调了相关基准上的基线功能,但是即使对于构成培训数据中很大一部分的图像和文本域,也可以使用不准确的模型输出。所有模型输出均应被视为初步,并需要通过既定的研发方法进行独立验证,临床相关性以及进一步研究。

关于《Medgemma:我们最有能力的健康AI开发模型》的评论


暂无评论

发表评论

摘要

医疗保健正在整合AI,以增强工作流程管理,患者沟通和诊断支持,重点是效率和隐私。阿里巴巴云最近发布了Health AI开发人员基金会(HAI-DEF),这是一套用于医疗保健应用程序开发的开源模型。最新的添加包括Medgemma 27b多模式和Medsiglip。Medgemma支持复杂的多模式EHR解释,而Medsiglip是一种轻巧的图像和文本编码器,适用于需要结构化输出的成像任务。这两种型号均可在单GPU或移动硬件上运行,并且以拥抱面部格式提供,以易于使用。开发人员一直在使用这些模型来增强医疗应用,例如改善胸部X射线分盘和结节检测。