对 FDA 批准的人工智能医疗设备报告差距的范围界定审查npj 数字医学 - Nature.com

2024-10-03 09:01:20 英文原文

摘要

医疗保健领域的机器学习和人工智能 (AI/ML) 模型可能会加剧健康偏差。监管监督对于评估临床环境中人工智能/机器学习设备的安全性和有效性至关重要。我们对 1995 年至 2023 年期间批准的 692 种 FDA 批准的支持 AI/ML 的医疗设备进行了范围审查，以检查透明度、安全报告和社会人口统计代表性。只有 3.6% 的批准报告了种族/民族，99.1% 的批准没有提供社会经济数据。81.6% 的人没有报告研究对象的年龄。只有 46.1% 提供了全面详细的绩效研究结果；只有 1.9% 包含带有安全性和有效性数据的科学出版物的链接。只有 9.0% 包含上市后监测的前瞻性研究。尽管市场批准的医疗器械数量不断增加，但我们的数据显示 FDA 报告数据仍然不一致。人口统计和社会经济特征被低估，加剧了算法偏差和健康差异的风险。

简介

迄今为止，FDA 已批准了 950 种由人工智能和机器学习驱动的医疗设备（AI/ML）在临床环境中的潜在用途1。最近，FDA 启动了医疗设备开发工具 (MDDT) 计划，旨在促进设备开发、及时评估医疗设备并促进创新，Apple Watch 是该监管流程中第一个获得批准的设备2、3。随着人工智能/机器学习研究开始转化为临床环境，最终用户能够评估设备对其独特临床环境的适用性并评估偏差和风险的来源至关重要。

算法偏差的一个定义人工智能/机器学习医疗系统的背景是算法放大不平等并导致医疗保健结果不佳的情况4。框 15,6 列出了一些已定义的算法偏差子类别。

尽管人们对算法偏差的认识有所提高，及其对 AI/ML 模型7 的普遍性的潜在影响，但仍缺乏标准化的算法偏差。FDA 等监管机构的数据报告提供有关临床使用算法的开发、测试和培训的可靠且一致的信息。这限制了对算法性能的准确分析和评估，特别是在少数族裔、儿童、孕产妇保健患者、罕见疾病患者以及来自较低社会经济阶层的研究群体等代表性不足的研究群体的背景下。部署最终用户无法透明评估的设备可能会增加健康差距，这在新兴临床试验和实际部署的背景下尤其重要8。迄今为止，对已发布数据的审查有限。

在这里，我们调查了 19952023 年以来美国食品药品监督管理局 (FDA) 批准的人工智能医疗器械，以检查其内容、一致性和透明度FDA 报告市场批准的设备，重点关注偏见。我们以范围界定审查的形式重点研究有限发表的 FDA 数据和相关论文。

结果

设备批准在临床专业中的分布

总共分析了 FDA 批准的人工智能医疗设备/软件的 692 个 SSED。FDA 每年批准的人工智能医疗设备数量稳步增加，1995 年至 2015 年间平均批准数量为 7 件，到 2022 年将增加到 139 件（图 1）。研究中包含的每个设备的监管类别是根据美国食品和药物管理局 (FDA) 分类系统确定和分类的。其中只有 2 个（0.3%）设备属于监管 III 类（风险最高的设备），而绝大多数（99.7%）设备属于 II 类（其安全性和基础技术已得到充分了解，因此被认为风险较低）9。

表 1 显示了 408 个批准的设备在器官系统中的分布。获批医疗器械中排名前三位的器官系统是循环系统（20.8%）、神经系统（13.6%）和生殖系统（7.2%）。最少的是泌尿系统（1.2%）和内分泌系统（0.7%）（表 1）。FDA 数据库中的每个设备都根据特定的医学专业进行分类（图 2）。FDA 分类显示，最具代表性的医学专业是放射科（532 个批准；76.9%），批准最少的是免疫学、骨科、牙科健康、妇产科（图 2 和表 2）。总共 284 种 (40.1%) 批准的器械无法归类到器官系统，因为 (1) 临床适应症并非特定于某个系统，或者因为 (2) 器械的功能跨越多个器官系统（例如，全身成像系统/软件）。因此，器官系统和医学专业的类别之间存在一些差异。例如，尽管有 144 种 (20.8%) 设备专门针对循环系统获得批准，但仍有 70 种 (10.1%) 设备被 FDA 归类为心血管领域（表 1 和表 2）。

报告统计数据参数和上市后监督

大多数 (678; 98.0%) SSED 报告了设备的使用指示（图 3a），487 (70.4%) SSED 包含批准前性能研究。然而，435 名（62.8%）没有提供有关受试者样本量的数据。尽管 319 份 (46.1%) 提供了包括统计分析在内的性能研究的全面详细结果，但其中只有 13 份 (1.9%) 包含科学出版物的链接，其中包含有关设备安全性和有效性的进一步信息（图 4）。只有 219 个 (31.6%) SSED 提供了有关底层机器学习技术的数据。只有 62 份器械文件 (9.0%) 包含上市后监测的前瞻性研究。14 个 (2.0%) SSED 解决了医疗设备对用户的潜在不利影响的报告。

种族、民族和社会经济多样性

算法测试数据中的患者人口统计数据仅在 153 个中指定(22.1%) SSED，其中 539 名 (77.9%) 未提供任何人口统计数据（图 3b）。只有 25 名 (3.6%) 提供了有关测试用户或目标用户的种族和/或民族的信息。仅 6 种 (0.9%) 设备提供了有关测试用户或目标用户的社会经济数据（图 3c）。

年龄多样性

共有 134 种 (19.4%) SEED 可用有关目标对象年龄的信息。在检查批准设备的年龄多样性后，FDA 于 2015 年首次批准了儿童设备。2015 年至 2022 年间，FDA 每年批准的儿科年龄组总数从 1 个稳步增加到 24 个。尽管有所上升，但儿科特定批准相对于总批准（成人和儿科合计）的比例仍然较低，在 0.0% 至 20.0% 之间波动（图 1 和表 3）。尽管有 4 种 (0.6%) 设备是专门为儿童开发的，但我们发现还有 65 种设备已被批准用于成人和儿童人群，从而使儿童人群的批准总数达到 69 种 (10.0%)。仅 134 个 (19.4%) SSED 报告了儿童和成人设备的测试和验证（图 5a、b）。儿童设备 (n = 69) 在各个医学专业的分布仅分为 5 类，与之前观察到的整个人群的模式类似，主要分布在放射学 (72.5%；n = 69)、心血管健康领域（14.4%；n = 69）和神经病学（10.1%；n = 69）（图 5c）。只有 3 种 (0.4%) 批准的设备专门关注老年健康。

性别多样性

在检查性别报告透明度时，总共有 39 种 (5.6%) 批准专门针对女性健康，其中 36 个重点关注乳腺病理检测。其余三个旨在辅助宫颈细胞学检查；确定卵泡的数量和大小；并进行胎儿/产科超声检查。在 10 种 (1.5%) 男性专用设备中，其中 8 种用于涉及前列腺的诊断和/或治疗程序，其余两种用于精液分析。

讨论

我们的研究强调，已发布的 FDA AI/ML 批准文件缺乏一致性和数据透明度，这可能会加剧健康差异。在一项类似的研究中，对 2015 年 1 月至 2020 年 12 月期间 FDA 批准的 130 种人工智能医疗设备进行了检查，其中 97% 只报告了回顾性评估；前瞻性研究未评估高风险设备；72% 的人没有公开报告该算法是否在多个网站上进行了测试；45% 没有报告样本大小等基本描述性数据10,11。缺乏一致的报告阻碍了对最终用户设备的公平性、有效性、普遍性和适用性的客观分析。正如我们的结果所述，只有 37% 的器械批准文件包含有关样本量的信息。由于算法数据的临床效用受到数据数量和质量的限制12，样本量报告缺乏透明度极大地限制了对性能研究有效性和设备有效性的准确评估13。

只有 14.5%设备提供种族或民族数据。最近的文献强烈强调通过传播算法偏差来增加种族健康差异的风险14,15,16。公开的监管文件中缺乏种族和民族特征分析可能会进一步加剧这一重要的健康问题17,18。FDA 已经认识到基于 AI/ML 的医疗设备存在偏见的可能性，并于 2021 年 1 月启动了行动计划（基于人工智能/机器学习 (AI/ML) 的软件作为医疗设备 (SaMD) 行动计划），以解决这些担忧19,20。然而，尽管做出了这些努力，我们的研究仍然强调报告的不一致可能会继续扩大种族健康差异21。鉴于这些结果，迫切需要透明和标准化的监管框架，在人工智能/机器学习医疗设备的评估和报告中明确考虑种族多样性22。减轻种族偏见的其他策略可能包括采用对抗性训练框架和实施授权后监控，以确保 AI/ML 设备在所有患者人口统计数据中公平运行23,24。

虽然 AI/ML 提供了减少社会经济影响的潜在机会健康差异，不同经济阶层的目标用户缺乏代表性，可能会导致高收入群体和低收入群体的健康差异扩大25。与其他临床研究领域一样，由于缺乏社会经济地位较低的群体（包括偏远和农村地区的群体）的代表性，可能会忽视那些最有可能从改善医疗保健中受益的群体26,27。我们的数据显示，只有 0.6% 的批准设备包含测试和/或算法训练数据集中详细说明用户社会经济状况的特定数据。这些数据使得预测批准的医疗器械对经济人群子集的潜在临床和财务影响变得困难。此外，缺乏社会经济数据阻碍了准确而稳健的成本效益分析，这可能会严重影响医疗算法或设备的可用性和影响28,29。研究强调了根源于社会经济因素的差异，影响了人工智能/机器学习技术的性能4,30,31。促进数据收集多样性和考虑跨社会经济群体的模型性能的举措至关重要，必须纳入新兴技术市场批准的评估中32。

只有 19.4% 的设备提供有关预期使用年限的信息对于设备用户而言，我们的研究表明 FDA 对医疗人工智能设备的评估和批准过程缺乏关于年龄多样性的全面数据。最近跨专业的文献证明了在成人或儿童数据上训练的算法的不同性能33,34。例如，一项探索超声心动图图像分析的研究表明，成人图像不能适当地推广到儿科患者，反之亦然35。因此，缺乏透明的年龄报告可能会传播与年龄相关的算法偏差，并对目标人群产生潜在的临床、伦理和社会影响33,36。减轻年龄偏见需要共同努力，以确保训练和测试数据集与目标用户适当匹配。此外，由于只有 0.6% 的设备专门批准用于儿科年龄组，我们的研究结果表明，儿童在 AI/ML 市场批准的设备中的代表性存在公平差距37,38。已证明可纳入儿科患者群体的医疗设备包括 MEDO ARIA 软件，该软件有助于对 0 至 12 个月婴儿的发育性髋关节发育不良 (DDH) 进行基于图像的评估39。建议发育障碍中心使用 EarliPoint 系统来帮助诊断和评估 16 至 30 个月大的儿童的自闭症谱系障碍 (ASD)，并建议使用 Cognoa ASD 诊断辅助工具来诊断和评估 18 至 72 个月大的儿童的 ASD40,41。/p>

我们的研究结果表明，只有 0.4% 的批准设备专门满足老年人的健康需求，因此应考虑针对老年人群的具体考虑。尽管老年患者的医疗保健利用率最高，但传统上在临床研究中的代表性不足42。世卫组织最近的一份伦理指导文件概述了医学研究中年龄歧视的潜在社会、临床和伦理影响，并描述了鉴于人口老龄化，缺乏老年人代表性是一种健康危害43。美国国立卫生研究院 (NIH) 的“终身包容”政策等举措旨在促进老年人参与研究，考虑到独特的伦理和临床考虑，这可能有助于平衡算法开发对该人群的潜在影响44,45。与对儿童的考虑类似，我们建议监管机构鼓励市场批准文件明确对老年人群进行测试和培训的意图，并确保采取适当的验证方法，以确保模型输出适当推广到特定的老年人健康需求46，47、48、49。代表老年人群的医疗设备的例子包括 NeuroRPM，旨在量化 46 至 85 岁患有帕金森病的成年人的运动障碍症状50。NeuroRPM 适用于诊所和家庭环境，有助于对无法获得现场护理的患者进行远程就诊50。另一种设备 icobrain 可自动对潜在痴呆患者的大脑结构进行标记、可视化和体积量化51。对于骨关节炎，膝骨关节炎标记助手 (KOALA) 软件可测量膝关节 X 光片上的关节间隙宽度和放射学特征，有助于风险分层并强调老年病学中预防性筛查的重要性52。

我们的研究还检验了批准的医疗器械中不同医学专业的代表性存在差异。最常见的专业包括放射学、心脏病学和神经学1。促进临床公平需要在数字创新中更加平衡地体现专业和疾病系统。虽然我们认识到人工智能/机器学习研究受到数据可用性和数据质量的限制，但行业、学术界和临床医生必须倡导专业之间的创新平等，将广泛的条件和患者群体纳入医疗设备开发和测试中，这可能会影响医疗设备的开发和测试。潜在的好处53。由于 FDA 是一家总部位于美国的监管机构，因此我们的审查不会审查美国以外地区的专科或病症的代表性，特别是中低收入国家 (LMIC)，这些国家的疾病负担占全球疾病负担的 80% 以上54，55,56。许多国家不具备发布批准文件的监管能力，因此未来的研究必须纳入国际数据可用性、协作和凝聚力57。美国国内外的监管机构必须努力将技术发展与国家和全球疾病负担的关键优先事项结合起来，以促进全球公平58。

我们的结果表明，研究招募、研究设计方法、统计数据的透明度，并且模型性能数据在批准的设备之间显着不一致。虽然 70.4% 的研究在市场批准之前提供了性能研究的一些详细信息，但只有 46.1% 提供了性能研究的详细结果。62.9% 的设备没有提供有关样本大小的信息。透明度对于解决 AI/ML 系统的可解释性和可解释性挑战至关重要，我们目前的研究结果表明，无法在 FDA 批准的设备上全面进行评估59。决策过程透明的模型（可解释性）或可以通过辅助模型阐明的模型（可解释性）对于验证任何结果的临床相关性并确保设备可以纳入临床环境从而提高透明度至关重要必须纳入未来的批准22,60。进一步的伦理考虑包括一系列问题，包括患者隐私、同意、公平、问责制和算法透明度61。在研究方案和未来的监管文件中纳入道德方法可以最大限度地减少因潜在滥用而产生的隐私问题，并增加最终用户的信心62,63。

只有 142 种 (20.5%) 的受审查设备提供了以下声明：最终用户的潜在风险。此外，只有 13 份（1.9%）批准文件包含相应已发表的科学验证研究，提供其安全性和有效性的证据。批准设备中安全数据的少报限制了最终用户确定设备合并可能出现的普遍性、有效性、成本效益和医疗法律复杂性的能力64。因此，FDA 等监管机构倡导强制发布安全数据并考虑潜在不良事件至关重要。Brainomix 360 e-ASPECTS 是已批准报告不良反应的设备的一个例子，它是一种计算机辅助诊断 (CADx) 软件设备，用于帮助临床医生使用 CT 图像数据来表征脑组织异常65。其安全报告强调了算法评分不正确、可能误用设备来分析非预期患者群体图像以及设备故障的一些潜在风险。

框 2 详细介绍了一些可能的建议已被 FDA 和国际上类似监管机构采用，以减少 AI/ML 中的偏见和健康差异风险。

虽然 FDA 的人工智能/机器学习 (AI/ML) 行动计划概述了推进人工智能/机器学习 (AI/ML) 的步骤，但基于人工智能/机器学习的医疗设备的开发和监督20，包括提高透明度、上市后监督和现实世界性能监控的举措66，我们的研究强调，市场批准数据中仍然存在一些临床相关的不一致之处，可能会加剧算法偏差和审批过程中的数据透明度较差，限制了本研究中可以可靠得出的一些结论，并限制了对上市后表现和现实世界有效性的质量评估。SSED 中提供的社会人口统计数据的缺乏引发了一个问题：申请人是否未能跟踪社会人口统计数据，或者他们只是未能报告这些数据。FDA SSED 模板67 确实规定披露可能受性、性别、年龄、种族和民族影响的风险和结果。因此，我们只能合理地假设，基于现有和可获取的信息，亚组分析数据的缺乏是由于申请人未能跟踪社会人口统计数据造成的，而不是申请过程总体上未能捕获相关信息。然而，很明显，尽管没有所有这些信息可用，但设备还是获得了批准，这也说明了在批准之前执行这些指标可能会失败的情况。考虑到大多数公司不会公布其上市后结果数据（只有 1.9% 的公司公布了可用数据），而且目前也没有强制要求这样做，因此我们的调查结果受到可获取数据的限制。这进一步再次强调了 FDA 等机构应采取严格和更透明监管的论点，以保护最终消费者并加强上市后评估和对现实世界有效性的评估。

作者还承认，由于本次审查仅关注美国 FDA 批准的市场设备，因此结果可能无法普遍推广。然而，作者确实相信本次范围界定审查中强调的结果和概念具有全球相关性。他们希望这篇论文能够成为关注不同环境下的设备的进一步研究的基础，并且这篇论文将激发更大的全球数据透明度，以进一步促进新兴技术的健康公平。作者还指出，近几个月来，510k 数据库中添加了其他 AI/ML 市场认可的设备，但本次评估并未包含这些设备。虽然这是一个限制，但作者认为，设备数量的迅速增加使本文的研究结果更加相关，需要快速的监管审查和行动。

人口、社会经济和统计信息不足的后果在向 FDA 提交的批准用于临床的 AI/ML 医疗设备的 510(k) 申请中，大多数内容都是多方面的，涵盖社会、健康、法律和道德维度12,33,68。解决这些信息差距对于确保人工智能/机器学习技术负责任且公平地融入临床环境以及临床试验中人口统计指标的适当评估至关重要。必须额外关注代表性不足的群体，他们最容易因算法偏差而受到健康差异的影响33,69。

方法

基于预期用途、使用指征以及相关风险，FDA 将设备大致分为 I 类（低风险）、II 类（中风险）和 III 类（高风险）。I 类和 II 类器械通常通过 510(k) 途径获得批准，其中申请人提交上市前通知，以证明其提议的器械与谓词器械的安全性和有效性和/或实质等效性。III 类（高风险）设备被定义为支持人类生命、防止健康受损或造成潜在不合理健康风险的设备69。此类设备的评估遵循 FDA 最严格的设备批准途径，即上市前批准 (PMA)70。

《食品、药品和化妆品法》第 520(h)(1)(A) 款要求FDA 批准后，将公开一份名为安全性和有效性数据摘要 (SSED) 的文件。SSED 由申请人使用 FDA 提供的可公开访问的模板编写67。该文件旨在对批准或拒绝 FDA 批准申请的证据提供平衡的总结。要获得批准，要求使用设备的可能好处大于可能的风险。SSED 中强调的研究应提供合理的安全性和有效性证据67。

因此，我们使用 FDA 对 1995 年至 2023 年间 FDA 批准的人工智能医疗设备进行了范围界定审查安全性和有效性数据摘要 (SSED)。本次范围界定审查是根据范围界定审查的系统审查和荟萃分析扩展的首选报告项目 (PRISMA-ScR) 指南71进行的。补充表 1 中包含完整的 PRISMA-ScR 检查清单。未注册协议。

我们纳入了 1995 年至 2023 年间 FDA 批准的支持 AI/ML 的医疗设备的所有 SSED，并通过 https 公开提供://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-aiml-enabled-medical-devices.1 每个 SSED 均由计算机科学专家进行审核、医学或学术临床研究，他们识别、提取和输入感兴趣的相关变量（补充表2）。然后将数据计算到 Microsoft Excel 电子表格中。每个变量的计数和比例是使用 Microsoft Excel 生成的。Microsoft Excel 上的电子表格和分析工作表已通过 https://zenodo.org/records/13626179 公开提供。

感兴趣的变量是根据报告试验综合标准 - 人工智能 (CONSORT-AI）扩展清单，这是由国际利益相关者制定的指南，旨在提高报告 AI 临床试验的透明度和完整性72。然后对每个 SSED 中确定的模棱两可或不明确的信息进行一致评估。

主要结果指标包括种族/民族报告的频率、年龄报告以及每个批准文件中提供的算法测试人群的社会人口统计数据的可用性。次要结果评估了批准设备中各种医学专业、器官系统和特定患者群体（例如儿科和老年患者）的代表性。

数据可用性

支持本研究的数据包含在文章和支持材料。所有 FDA 安全性和有效性数据摘要 (SSED) 文件均可公开获取，并可通过 https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-启用目标的医疗设备。提取的数据和分析工作表发布在 Zenodo 上，可通过 https://zenodo.org/records/13626179 获取。

参考

美国美国食品和药物管理局（FDA）。支持人工智能和机器学习 (AI/ML) 的医疗设备。https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-aiml-enabled-medical-devices（2024）。
设备和放射健康中心。医疗设备开发工具 (MDDT)。https://www.fda.gov/medical-devices/medical-device-development-tools-mddt (2024)。
Ajraoui、S. Ballester、B. R. Apple Watch AFib 历史记录功能创造了医疗设备的历史。https://www.iqvia.com/blogs/2024/05/apple-watch-afib-history-feature-makes-medical-device-history（2024）。
Panch, T.、Mattie, H. Atun, R. 人工智能和算法偏差：对卫生系统的影响。J.格洛布。Health 9, 020318 (2019)。
Chu, C. H. 等人。年龄歧视和人工智能：范围审查协议。JMIR 研究中心。协议。11, e33211 (2022)。
Jiang, H. Nachum, O。识别和纠正标签偏差在机器学习中。过程。马赫。学习。资源。108, 46214630 (2020)。
Chen, R. J. 等人。医学和医疗保健人工智能的算法公平性。纳特。生物医学。工程师。7, 719742 (2023)。
Norori, N.、Hu, Q.、Aellen, F. M., Faraci, F. D. Tzovara, A. 解决医疗保健大数据和人工智能中的偏见：呼吁开放科学。模式 2, 100347 (2021)。
皮尤慈善信托基金。FDA 如何监管医疗产品中的人工智能。https://www.pewtrusts.org/en/research-and-analysis/issue-briefs/2021/08/how-fda-regulates-artificial-intelligence-in-medical-products（2021）。
吴 E. 等人。如何评估医疗人工智能设备：FDA 批准分析的局限性和建议。纳特。医学。27, 582584 (2021)。
Wu, E. 等人。制定更严格的 FDA 人工智能医疗设备审批标准。HAI 政策简介。16 (2022)。
Mashar, M. 等人。医疗保健中的人工智能算法：当前食品药品监督管理局的监管是否足够？JMIR AI 2，e42940 (2023)。
Ahmed, M. I. 等人。对医疗保健领域实施人工智能的障碍进行系统审查。Cureus 15，e46454 (2023)。
Nazer，L. H. 等人。人工智能算法中的偏差和缓解建议。PLoS 数字。健康 2，e0000278 (2023)。
Delgado, J. 等人。为 COVID-19 开发的人工智能系统算法的偏差：范围界定审查。J.Bioeth。询价。19, 407419 (2022)。
Wiens, J. 等人。不造成伤害：负责任的医疗保健机器学习路线图。纳特。医学。25, 13371340 (2019)。
FoxRawlings, S. R.、Gottschalk, L. B.、Doamekpor、L. A. Zuckerman,D. M. 医疗器械临床试验的多样性：我们知道什么对哪些患者有效吗？Milbank Q. 96, 499529 (2018)。
Hammond, A.、Jain, B.,Celi，L.A. 斯坦福大学，F.C. 需要延长 FDA 审批流程以实现人工智能公平。纳特。马赫。英特尔。5, 9697 (2023)。
Abernethy, A. 等人。数字健康的承诺：过去、现在和未来。南视角。2022 https://doi.org/10.31478/202206e (2022)。
美国食品和药物管理局。基于人工智能/机器学习 (AI/ML) 的软件作为医疗设备 (SaMD) 行动计划。https://www.fda.gov/media/145022/download?attachment (2021)。
Mittermaier, M.、Raza、M. M. Kvedar、J. C. 基于人工智能的医疗应用模型中的偏差：挑战和缓解策略。Npj 数字医学。6, 113 (2023)。
Arora, A. 等人。基于人工智能的应用程序中健康数据集标准的价值。纳特。医学。29, 29292938 (2023)。
Cary, M. P. 等人。减轻种族和民族偏见并促进临床算法中的健康公平：范围界定审查。健康事务部。42, 13591368 (2023)。
Ferrara, E. 人工智能中的公平性和偏见：简介来源、影响和缓解策略的调查。Sci 6, 3 (2023)。
dElia, A. 等人。初级保健中的人工智能和健康不平等：系统范围审查和框架。家人。医学。社区健康10，e001670（2022）。
Gurevich，E.，E.，El Hassan，B。El B. ElMorr，C。AI系统中的权益：卫生领导者可以期望什么？健康管理。论坛36，119124（2023）。
Thomasian，N。M.，Eickhoff，Eickhoff，C。C. Adashi人工智能的健康公平。J.公共卫生政策42，602611（2021）。
paik，K。E.等。健康的数字决定因素：健康数据贫困放大了现有的健康差异范围审查。PLOS Digit Health 2，E0000313（2023）。
topol，E。J.欢迎AI临床研究的新指南。纳特。医学。26，13181320（2020）。
green，B。L.，Murphy，A. Robinson，E。Accelerating人工智能研究的健康差异研究。正面。数字。健康6，1330160（2024）。
Obermeyer，Z.，Powers，B.，Vogeli，Vogeli，C. Mullainathan，S。在一种用于管理人口健康的算法中解剖种族偏见。科学366，447453（2019）。
busnatu，。等人。人工智能的临床应用更新了概述。J.克林。医学。11，2265（2022）。
van kolfschooten，h。年龄歧视：通过医疗设备的欧盟监管框架缓解偏见。J.法律生物科学。10，LSAD031（2023）。
Joshi，G。等。FDA批准的人工智能和机器学习（AI/ML）支持的医疗设备：更新的景观。电子13，498（2024）。
berghea，E。C.等。在小儿保健中融合人工智能：父母的看法和道德意义。儿童11，240（2024）。
美国。美国食品和药物管理局（FDA）。510（k）摘要：Medo ARIA [前通知提交K200356]。https://www.accessdata.fda.gov/cdrh_docs/pdf20/k200356.pdf（2020）。
美国。美国食品和药物管理局（FDA）。510（k）摘要：Earlipoint System [前通知提交K213882]。https://www.accessdata.fda.gov/cdrh_docs/pdf21/k2138882.pdf（2021）。
Ferrum Health 筹集 1600 万美元，将 FDA 批准的人工智能引入医院 - Axios');" >Ferrum Health 筹集 1600 万美元，将 FDA 批准的人工智能引入医院 - Axios
奥运会向运动员合作构建人工智能系统开放npj 数字医学 - Nature.com
Nvidia与初创公司Aidoc合作，加速医疗AI的应用采纳
Apple Watch 睡眠呼吸暂停检测功能获得 FDA 批准 - TechCrunch
FDA 批准人工智能驱动的甲状腺超声分析系统 - Medscape