医疗人工智能实施的悖论

2012年，深度学习AI时代以卷积神经网络为后盾（亚历克斯网）赢得了 ImageNet 挑战赛。这些图像是日常物体、动物和场景，与健康和医学无关。7年前，我写过一篇评论自然医学有权高性能医学总结了人工智能解读医学图像所取得的显着进展。现在，几乎所有类型的医学图像都经过了人工智能的广泛评估，包括 X 射线、CT、MRI、超声波、病理切片、皮肤异常、心电图、内窥镜检查和视网膜照片。几周前在这里基本事实随后在柳叶刀，我根据对超过 100,000 名女性进行的最大规模的随机试验以及最近 FDA 的 2 项批准，写了大约 3 个人工智能工具，这些工具应该用于每次乳房 X 光检查。已有 44 项结肠镜检查随机试验总体而言，与没有人工智能的胃肠病学家相比，人工智能辅助检测腺瘤性息肉具有显着优势，但这尚未成为标准医疗实践的一部分。在本期的基本事实，我将回顾一下深度学习时代人工智能（DL，前 Transformer 模型）的采用与当代大型语言模型 (LLM) 之间的惊人且矛盾的对比，后者又名生成式 AI，是 Transformer 模型的产物（是的，仍然是深度学习的一种形式），因 2022 年底 ChatGPT 的发布而广为人知。

从 2018 年开始，我们开始注意到，当人工智能“看到”时，视网膜眼底照片或光学相干断层扫描 (OCT) 中嵌入了更多眼科医生无法检测到的信息。这导致人们认识到，对数十万到数百万张图像进行监督学习可以产生超人的视力。随后发表了许多关于视网膜图像人工智能的论文，这些论文支持视网膜图像作为通往身体几乎所有器官的门户，同样在任何症状出现之前许多年就降低了帕金森病和阿尔茨海默病的风险。这些都源自单个深度学习模型，探索图像预测特定条件的能力。我给了一个TED演讲2023 年，Pearse Keane 及其同事发布了第一个视网膜基础模型，这是一个包含许多下游任务的通用数据集，称为（RETFound）来自 160 万张图像，展示了它对心脏病、中风、青光眼和帕金森病的预测。本周，一个新的retinal图像基础模型(Reti-Pioneer) 发布了超过 100,000 张照片中的结果，除了先前确定的 2 型糖尿病、高血压和高脂血症之外，还将甲状腺疾病、痛风和骨质疏松症添加到一长串疾病清单中，用于确定风险水平（总结于图中）。谁会想到视网膜图像如此丰富？！

大多数人每年或每隔一年进行一次眼科检查，通常包括视网膜照片。去年超过一半的美国人进行了眼科检查，或远远超过 1 亿人。然而，已经发表的关于超人视网膜视觉的非凡进展还没有被纳入常规医疗实践！

尽管视网膜人工智能缺乏普遍应用，但至少有 4 家公司已经开始为患者提供具体的结果，尽管在美国这种技术很少能获得或使用。有奥坦对于心血管风险，德之眼慢性肾病风险和生物年龄，梅迪鲸心血管和肾脏风险，以及i-认知科学（总部位于香港）针对阿尔茨海默病风险。尽管各种情况的风险准确度不是 100%（= 接收器操作特性下的面积，AUROC 为 1.0），但可以以名义成本（1 美元）或免费向所有进行眼科检查的人提供超过 15 种情况的信息。但缺乏实施这一庞大工作和证据的任何协调，以及报销等问题阻碍了这一进程。它的软件可以而且应该很容易地应用于每个视网膜图像，并且有一天应该成为“医学自拍照”的一部分，我们可以使用智能手机和应用程序读数自动捕获眼底。

上周，一个AI检测胰腺癌发表，其检测导管腺癌 (PDA) 的时间比放射科医生提前 3 年（中位提前间隔 475 天）和隐匿性 PDA 的检测人工智能几乎翻了一番与放射科医生相比（分别为 73% 和 39%，见下图）。这项多中心研究还进行了外部验证。昨天，FDA批准使用实验药物对于胰腺癌，具有非常有希望的结果。在临床发现胰腺癌之前使用人工智能来检测胰腺癌怎么样？

在中国，胸部和腹部CT人工智能检测胰腺癌使用经过验证的人工智能工具 PANDA 已成为日常工作。也就是说，即使为了其他目的而订购了扫描，人工智能也会自动用于检测。这就是所谓的本质机会主义人工智能。下图显示了一些示例。

我在表中总结了一长串错失的成像机会。就在几周前，正如我在《基本事实》中所写的那样，有能力获得胸腺健康评分通过低分辨率胸部 CT 的人工智能。获取有关我们免疫系统健康的重要信息临床上无法获得。由于没有将经过验证的人工智能检测方法纳入我们的医疗扫描中，我们将留下如此多有价值的医疗信息。这甚至没有考虑到心电图、病理幻灯片以及我们没有用人工智能提取的许多其他类型的医学图像中编码的内容。

在四月号中，编辑于自然医学 发表这篇文章寻求证据。这让我想起了杰瑞·马奎尔电影中古巴·古丁的著名台词“给我看钱”。

与许多随机试验和对医学图像人工智能进行外部验证的前瞻性评估相反，生成式人工智能在医学中的证据是缺乏的。这并没有阻止公众或医生使用人工智能聊天机器人和法学硕士。对于公开的，根据多个s尤维斯，12% 的成年人（即大约 4000 万人）每天使用人工智能聊天机器人，估计在过去一年中使用聊天机器人获取健康信息的比例从 32% 到 73% 不等。根据最近的一项调查美国医学会 2026 年 3 月在 1,700 名医生中，72% 的医生至少在 1 个用例中使用 genAI，35% 的医生用于直接患者护理，即非行政决策。下图推断了大约 100 万医生的情况。

下图显示了到 2026 年底医生的预计使用情况（来自 AMA 调查）。您可以看到预期与当前使用情况有很大不同！注意诊断辅助计划。

对于基于人工智能的决策支持，例如临床医生对患者进行诊断或优化管理，证据是什么？我们真的没有任何现实世界数据。本周在科学杂志评估 2 个法学硕士（Open AI o1 和 ChatGPT 4）和医生的案例插图的多 (6) 项实验支持了改进推理的潜力，并且在模拟现实世界与 2 个医生在 3 个接触点（下图）的急诊室决策相比，01 的初始分诊决策得到了改进。许多出版物中的大多数都使用案例研究、模拟和演员作为患者。很难代表混乱的医学实践世界。

在患者方面，也存在同样的缺陷。一个有限的例外是一项针对 100 名成年患者的小型前瞻性单组研究（预印本已出版将模型（AIME）与初级保健医生进行鉴别诊断和管理计划进行比较，结果显示两者相当。一项研究ChatGPT Health 帮助分类患者（模拟）留在家里或去急诊室人工智能的表现并不好，对于真正的紧急情况（例如糖尿病酮症酸中毒或即将发生的呼吸衰竭）存在许多明显的分类错误（图）。

在一个比较法学硕士协助患者的法学硕士随机试验s 为 10 医疗场景（非真实世界），患者表现不佳（图），结论是“我们建议在医疗保健领域进行公共部署之前进行系统的人类用户测试来评估交互能力。”

缺乏现实世界评估有一些例外，包括自然健康肯尼亚 16 家初级保健诊所使用法学硕士的论文以及眼保健单中心随机试验。后者发现，与未使用 AI 的眼科医生 (75.4%) 相比，使用 AI 的眼科医生的诊断率 (92.2%) 更高。

总之，几乎没有证据表明法学硕士对患者或医生的健康结果有益。这并不是说生成式人工智能没有帮助。它为行政工作提供强有力的支持，例如为医生总结图表，或为患者审查实验室，或为临床医生和患者提供相关出版物，或帮助医生进行预授权和为患者解决计费问题。人工智能聊天机器人正在帮助患者准备就诊、了解他们的诊断和处方。

但回到自然医学™我们需要证据，我们需要它。对于法学硕士来说，要帮助医生做出关键的诊断或治疗决策，这需要前瞻性研究，理想情况下是随机的，但至少是严格和大规模的，并对健康结果进行独立裁决。对于公众来说，我们如何知道输入所有数据会导致正确的诊断或治疗？本周我们了解到向人工智能报告症状质量与呈现给医生的内容相比是有缺陷的。患者使用 genAI 的好处与潜在危害相比如何？

我回顾了一个主要的悖论，即医学图像的人工智能，通过十多年前的广泛研究，没有被实施。无论是乳房X光检查、CT扫描、视网膜图像还是结肠镜检查，都经过了广泛的研究，但它们在提高医学准确性和风险评估方面的价值却被忽视和根本忽视。

另一方面，数以千万计的美国人正在使用人工智能聊天机器人来提供医疗支持，相当一部分医生也是如此。在这里使用人工智能的原因有很多很容易支持，因为它们代表了网络/谷歌搜索的扩展。只是反应更加具体和深入，而不是受到监管监督。但在做出诊断或提供治疗计划时，需要有证据表明法学硕士正在提高准确性和结果。我们已经看到多项研究（同样不是现实世界）人工智能在各种任务上的表现都比医生更好与人工智能，包括新的科学本周的论文表明我们甚至还不知道部署人工智能的最佳方式（人机交互问题）。正如 Raj Manrai 在他的优秀著作中所写的解释线程作为该书的资深合著者之一科学论文： – 我们的结果实际上需要什么？前瞻性临床试验。卫生系统现在投资于基础设施。监控框架不仅可以跟踪诊断准确性，还可以跟踪安全性、效率和成本。科学已经达到了试验合理的地步。如果没有这一点，我们就无法依靠生成式人工智能来做出关键决策，从而获得高性能医学。

一个症结所在。不幸的是，当同行评审论文发表时，评估的模型已经过时了（例如 01，当时 GPT5.5 是最新的）。这可以为人工智能爱好者提供掩护，他们称缺乏最佳人工智能性能是因为模型较弱且陈旧。然而事实已经证明了这一点。快速将其作为预印本发布。

我们进入医学法学硕士时代才几年。Waymo 始于 2009 年，经过超过 15 年的严格、迭代工作，才展现出其真正超人的性能，与人类驾驶员相比，严重事故减少了 90% 以上。让我们解决医疗人工智能实施的这个悖论。这是一项双重且重大的任务。在经过验证的地方加强医疗人工智能的使用，并在缺乏关键证据的情况下进行必要的临床试验来证明大规模采用的合理性。

注：这篇文章是我写的，没有AI。如图所示，两张图像是在人工智能的帮助下制作的。我没有与帖子内容相关的利益冲突。

非常感谢基本事实来自美国各州和 212 个国家/地区的订户 (> 205,000)。您对这些内容的订阅免费论文和播客让我将它们组合在一起的工作变得有价值。如果您不是订阅者，请加入！

如果您发现这很有趣，请分享！

分享基本事实

付费订阅是自愿的，所有收益都将用于支持斯克里普斯研究公司。他们确实允许发表评论和问题，我会尽力回复。请随时发表评论并向我提供反馈。让我知道您希望看到的主题。

发表评论

非常感谢那些做出贡献的人——他们为资金提供了很大帮助我们的暑期实习计划过去两年。它使我们能够在 2026 年接受和支持创纪录数量的 51 名暑期实习生！这些学生是从数千名申请者中挑选出来的高中生、大学生和医学院的学生。如果没有通过 Ground Truths 获得的资金，我们就无法开展这一扩展计划。

对于那些有兴趣延长健康寿命的人，我的 NPR 片段这周

OC

医疗人工智能实施的悖论

关于这篇文章的讨论

关于《医疗人工智能实施的悖论》的评论

发表评论

摘要

相关新闻

相关讨论