作者:Katalinic, Alexander
乳房X光检查计划有助于降低乳腺癌相关死亡率1,2。然而,乳腺癌筛查仍有改进的空间。一方面,可以提高筛查的敏感性,从而降低间期癌症发生率,并为乳腺癌患者提供更有效的治疗。另一方面,可以通过最大限度地减少假阳性结果来提高筛查的特异性,以降低召回率,假阳性结果可能会导致接受筛查的女性产生焦虑和不确定性。因此,更高的特异性将通过最大限度地减少不必要的、侵入性的和昂贵的医疗程序来减轻筛查参与者和医疗保健系统的负担。
此外,这些程序会生成大量的乳房X光照片,在许多程序中(包括德国乳房X光检查程序),需要两名独立的放射科医生进行解释;为了实现高度的敏感性和特异性,可能还需要召开协商一致的会议或仲裁3,4。因此,放射科医生的工作涉及每周解读数百张图像的重复性任务,其中大多数图像没有乳腺癌的迹象。这种方法在很大程度上依赖于人类的专业知识,但筛查项目却缺乏放射科医生5。由于国家和国际指南最近建议对 40/45-49 岁和 70-74 岁年龄组进行乳房 X 光检查,工作量预计会增加6,7,8。
将人工智能 (AI) 集成到乳腺癌筛查工作流程中可以缓解筛查项目面临的一些问题。回顾性研究表明,人工智能的准确性与放射科医生相当,有时甚至更高,这表明该技术可以通过改善对人类读者可能无法识别的细微异常的识别并减少阅读工作量来支持放射科医生解释乳房X光照片9,10,11。越来越多的证据表明,人工智能可以检测出 20% 至 40% 的间期癌症,这些癌症可以在之前的乳房 X 光检查中回顾性发现或怀疑,但被放射科医生漏掉了12,13,14。在评估人工智能对筛查指标影响的研究中使用回顾性数据受到女性结果的不确定性的限制,这些女性的乳房X光检查结果仅被人工智能标记为可疑,因此没有被提交共识会议或进一步评估。越来越多的前瞻性证据表明人工智能具有改善筛选指标并减少阅读工作量的潜力。MASAI(人工智能乳房X线摄影筛查)试验15、ScreenTrustCAD 研究16以及 Ng 等人的一项研究。17 号所有人都报告称,结合人工智能的工作流程的癌症检测有所增加,但召回率的结果并不一致。然而,这些研究受到样本量小(限制了亚组分析)以及筛查地点、乳房X光检查设备供应商和所涉及的放射科医生方面缺乏异质性的限制,从而降低了它们对现实世界环境的普遍性。
Leibig 等人在回顾性分析中。18证明在决策转介方法中使用人工智能,即人工智能自信地预测正常或高度可疑的检查结果,并将不确定的结果转交给放射科医生的专业知识,比单独使用人工智能或放射科医生产生了更好的指标。在德国乳腺 X 线摄影筛查计划中嵌入的 PRAIM(带实时监测的集成人工智能系统的前瞻性多中心观察研究)实施研究中,我们调查了使用人工智能支持的 CE(Conformité Européenne)是否通过双重读取实现了性能指标-采用决策转介方法的经过认证的医疗设备并不逊色于在现实环境中没有人工智能支持的双重读取所实现的设备。在这里,我们报告人工智能对癌症检测和召回率的影响。
该研究是在德国有组织的乳腺癌筛查计划中进行的,该计划针对 50 至 69 岁的无症状女性(图 1)。1)。所有参与筛查计划的女性都有资格纳入研究。2021年7月1日至2023年2月23日期间,从使用人工智能系统的12个筛查站点收集了筛查参与者的数据(扩展数据表1)。德国乳房X光检查计划以具有约束力的国家指南为基础,为每位参与的女性拍摄四张二维乳房X光检查(每个乳房的头尾和中外侧斜视图)。这些乳房X光照片最初由两名放射科医生独立读取(有时由第三名放射科医生监督)。如果至少一名放射科医生认为该病例可疑,则会召开共识会议。共识会议的参加者至少为两名初始读者和一名首席放射科医生,但可以有更多筛查站点的放射科医生参加。如果在共识会议上仍然存在可疑发现,该妇女将被召回进行进一步的诊断评估,其中包括超声检查、数字乳腺断层合成、放大视图、对比增强乳房X光检查或磁共振成像。
在这项研究中,当两名放射科医生中至少一名使用人工智能支持的查看器阅读并提交报告时,检查被分配给人工智能组。所有放射科医生均未使用人工智能支持的查看器提交报告的检查构成了对照组。女性和放射技师不知道研究组的分配,因为在图像采集时尚未分配。图像采集后,对所有女性进行人工智能预测,但仅向使用人工智能支持的查看器的放射科医生显示。执行第一次和第二次读取的放射科医生可以自由使用现有的报告和查看器软件(无需人工智能支持)或人工智能支持的查看器。使用人工智能支持的查看器的决定是在每次检查的基础上做出的(也就是说,一名放射科医生通常为人工智能组和对照组进行检查)。读者组中的放射科医生独立选择是否使用人工智能支持的查看器。如果其他放射科医生没有选择使用人工智能查看器,则人工智能结果不会透露给他们。
使用的人工智能系统是 Vara MG(来自德国 Vara 公司),这是一种经过 CE 认证的医疗设备,旨在显示乳房 X 光照片(查看器软件)并对筛查检查进行预分类,以协助放射科医生进行日常报告。此前曾报道过该AI软件之前版本的性能12,18。当使用人工智能支持的查看器时,放射科医生得到了两个基于人工智能的功能的支持(扩展数据图 1)。1):
正常分诊。该软件会选择人工智能模型认为高度可疑的所有检查的子集。这些检查在工作清单中被标记为“正常”。
安全网。该软件会选择人工智能模型认为高度可疑的所有检查的子集。放射科医生首先在没有任何进一步人工智能支持的情况下阅读筛查检查。当放射科医生认为检查结果不可疑时,安全网就会启动,并发出警报并建议对图像中的可疑区域进行定位。然后,放射科医生会被提示重新审视他们的决定,并接受或拒绝安全网的建议。
总体而言,在 12 个筛查点接受乳房 X 光检查的 461,818 名女性参与了这项研究。共有 119 名放射科医生组成 547 个读卡组,对检查进行了解读。使用了来自五个不同供应商的乳腺X线摄影硬件系统(扩展数据表2)。在所有参与的女性中,AI 组筛选了 260,739 名女性(其中 152,970 名女性仅由一名读者使用人工智能支持的查看器,107,769 名女性由两名读者使用),对照组筛选了 201,079 名女性。桌子1呈现了按研究组筛选的女性和检测到的乳腺癌的特征。在接受筛查的女性中,每 1,000 人中有 41.9 人有可疑发现,并被召回进行进一步评估。其中四分之一(每1000人中有10.4人)接受了活检程序,每1000人中有6.2人最终被诊断出患有乳腺癌。大多数(79.4%)癌症被归类为侵袭性癌症,18.9% 为导管原位癌(DCIS)。
AI 将 56.7% 的考试(461,818 项中的 262,055 项)标记为正常。AI 组的这一比例 (59.4%) 高于对照组 (53.3%;表2)由于观察到的阅读行为偏差。在AI组中(n-= -260,739),安全网被触发了 3,959 次(1.5%)次检查,在 2,233 次检查中显示,并在 1,077 次(0.4%)次检查中被接受,导致 541 次(0.2%)次召回和204 (0.08%) 例乳腺癌诊断。相反,AI 组中的 8,032 次检查(3.1%)尽管被 AI 标记为正常,但仍接受了共识组的进一步评估,导致 1,905 次(0.7%)次召回、82 次(0.03%)次活检和 20 次(0.008%)后续乳房检查癌症诊断。
我们控制了已识别的混杂因素(读者集和人工智能预测;扩展数据图 1 中呈现的因果图)。2)通过基于倾向得分的重叠加权(扩展数据图1)3)。基于模型的乳腺癌检出率 (BCDR) 每 1000 名接受筛查的女性,AI 组为 6.70,对照组为 5.70。这代表基于模型的绝对差异为每 1,000 名接受筛查的女性增加一种癌症,相对增加 17.6%(95% 置信区间 (CI):+5.7%、+30.8%)。AI 组的 BCDR 被认为不劣于,甚至在统计学上优于对照组。AI 组基于模型的召回率(每 1000 人 37.4 人)低于对照组(每 1000 人 38.3 人),降低了 2.5%(±6.5%,+1.7%)(表3)。AI 组的回忆阳性预测值 (PPV) 为 17.9%,对照组为 14.9%。AI 组的活检率比对照组高 8.2%(±0.4%,+17.6%)。尽管如此,AI 组的活检 PPV 在统计学上显着较高(+9.0%(+2.0%,+16.4%))。
亚组分析显示,根据筛查轮数、乳腺密度和年龄,所有亚组的 BCDR 均有所增加,范围在 +12% 至 +23% 之间(表4)。对于随访筛查、非致密乳房和年龄 60-69 岁亚组,95% CI 完全阳性。
各亚组回忆率的相对差异在 ±5%(50-59 岁)和 +4%(60-69 岁)之间变化,但除 50-59 岁女性外,所有 CI 均包含零。
我们进行了各种敏感性分析,所有这些分析都表明我们的分析对于不同的分析决策都是稳健的。
在除了人工智能预测和读者设置之外,进一步调整倾向评分模型中的年龄、筛查轮次、乳腺密度和监督的模型中,BCDR 保持在 17.6%(5.7%、30.8%)不变。同样,在额外调整的模型中,AI 组的回忆和活检 PPV 分别比对照组高 18.3%(±7.3%、30.5%)和 9.3%(0.5%、18.8%)(扩展数据表3)。按年龄组、筛查轮次和乳腺密度进行的亚组分析结果在额外调整后没有发生有意义的变化。我们对每个读者而不是读者组进行单独调整的敏感性分析也提供了与主要结果类似的数据:在 AI 组中,BCDR 高出 19.0% (7.4%, 31.8%),召回率为
低 1.5% (±5.4%, 2.6%),表明结果对于读取器设置变量的不同参数化具有稳健性。
结果对于抽样误差来说是稳健的,因为当研究样本变化时,它们几乎保持不变(自举和 80% 随机子集选择,每个进行 1,000 次):自举和 80% 随机子集选择的平均 BCDR 为 17.6% (5.7%, 30.8%)17.4% (11.4%, 23.8%) 用于子集选择。
重叠加权的基于倾向得分的替代方案是带有修剪的逆倾向得分加权。应用各种修剪阈值后(扩展数据表4),结果仍然相似。
作为混杂因素调整方法的倾向得分加权的另一种替代方法是分层。同样,敏感性分析的结果(包括每个研究组中包含一定最小样本量(0 到 200 之间)的所有混杂因素层)与主要结果一致。
我们进行了安慰剂干预分析,以检查当仅存在安慰剂干预且保留模型的所有假设(即,存在由于到阅读行为)。正如预期的那样,基于模型的平均差异很小(0.8% (±9.9%, 11.6%)),表明没有残留混杂因素。
仅在 AI 组中测量每次筛选检查的平均阅读时间,因为技术上不可能在对照组中测量这一点。平均而言,标记为正常的考试的阅读速度(中位阅读时间,16 秒)比非分类考试(中位阅读时间,30 秒)和安全网考试(中位阅读时间,99 秒)更快。总体而言,放射科医生解释标记为正常的检查的时间减少了 43%,正常检查的平均读取时间为 39 秒,而未标记为正常的检查的平均读取时间为 67 秒(扩展数据图 1)。4)。为了评估人工智能集成通过自动化减少阅读工作量的潜力,我们分析了一个虚构的场景,在该场景中,放射科医生没有阅读由人工智能正常分类的筛查检查。相反,在人工智能预测“正常”后,检查直接得到最终分类“正常”,因此,放射科医生不可能检测到人工智能遗漏的任何乳腺癌症状。
进行了召回或检测到癌症。对这种情况的分析表明,当所有正常标记的检查(56.7%)自动分类为正常时,BCDR 仍然较高,并且统计上优于 16.7%(4.9%, 29.9%),共识率较低 â19.4% (±21.5%, 17.4%),召回率在统计上优于和低于≤15.0%(≤18.6%,≤11.2%),而AI组的活检率比对照组高5.8%(≤2.7%,15.0%)(表5)。表 5 虚拟 AI 自动化场景中模型预测的 BCDR 和召回率以及 AI 组和对照组的相应差异
据我们所知,这是关于将人工智能整合到乳房X光检查中对BCDR和召回率影响的最大规模的研究。这项研究通过筛查轮次、乳腺密度、年龄、癌症侵袭性、分期、分级和大小广泛报告了人工智能在临床相关亚组中的表现,对政策制定具有重要影响。PRAIM 包括超过 460,000 名女性、119 名放射科医生、5 家不同的机器供应商和德国各地的 12 个筛查站点。该研究没有排除筛查站点、机器供应商、放射科医生(例如,基于多年的专业经验)或女性亚群,并允许在整个研究过程中更新人工智能算法,就像在更广泛的推广中发生的那样。PRAIM 的这种真实世界设置增强了研究结果对类似双读乳房 X 光检查项目的普遍性。人工智能在 PRAIM 研究中使用的筛查过程中的受控实施——包括在开启人工智能预测之前让放射科医生解释人工智能建议,以及供应商对人工智能预测的实时监控,符合上市后监督法规——促进安全、负责任地推出人工智能19。我们的乳房 X 光检查筛查人工智能方法提供了可信的正常预测和可信的可疑预测(安全网),但没有提供不可信的预测。AI 组(其中一名或两名放射科医生使用 AI 支持的查看器解释检查)的 BCDR 比对照组高 17.6% (5.7%, 30.8%)(每 1,000 名接受筛查的女性增加 1 名乳腺癌)。
其中进行了独立标准(人类)双重阅读。人工智能的使用还伴随着召回率略有下降,但在统计上并不显着(±2.5%(±6.5%, 1.7%))。
我们的结果与之前发表的研究结果一致。回顾性研究发现,人工智能支持的乳腺癌筛查具有相似或更高的 BCDR,这表明人工智能可以通过降低间隔癌症发生率以及通过早期检测下一轮筛查检测到的癌症来改善癌症检测,其中一些癌症可以在乳房 X 光检查中回顾性地看到来自前一轮筛选12,14,20,21,22 号。三项前瞻性研究还报告了人工智能支持的筛查带来了更高的 BCDR15,16,17 号。MASAI 研究是一项随机对照试验,在干预组中采用人工智能对单读或双读检查进行分类,报告 BCDR 提高了 20% (±0%, 50%),但召回率也从 2.0% (1.9%, 2.2%) 至 2.2% (2.0%, 2.3%)15。ScreenTrustCAD 研究采用配对阅读器设计,表明阅读器替换方法(AI 加一名放射科医生)实现了更高的 BCDR (4% (0%, 9%)) 和更低的召回率 (±4%)(±6%,±3%)) 比标准独立双读16。吴等人。17 号使用人工智能作为第三个阅读器将检查提交仲裁,结果发现了更多癌症,其中大多数是侵袭性的17 号。
我们研究中使用的决策转介方法通过“安全网”系统和“正常分类”的结合,可以在不提高召回率的情况下提高 BCDR。使用人工智能支持的查看器的放射科医生只有在将人工智能认为可疑的检查解释为正常后才会收到警报并显示可疑的计算机辅助诊断标记。这种方法限制了自动化偏差并降低了假阳性召回率,同时将最终召回决定留给了放射科医生(参见扩展数据图 1 中的示例案例)。5)18。在人工智能支持的组中,安全网被触发 3,959 次,接受 1,077 次,在这些安全网引发的重新评估中诊断出 204 例乳腺癌(61 例 DCIS、142 例侵袭性、1 例其他)。否则这些乳腺癌就会被漏掉。标记置信的阴性预测可能会利用自动化偏差,并有助于降低召回率,因为放射科医生不太可能错误地召回被人工智能标记为正常的检查。然而,AI 组的放射科医生在 AI 分类为正常的检查中也发现了 20 种癌症。
尽管我们的研究和其他研究表明,在乳腺癌筛查中使用人工智能可以提高 BCDR,并且召回率相当,但仍然存在悬而未决的问题。首先,我们的研究和其他研究表明,将人工智能整合到乳房 X 线摄影筛查中可能会进一步增加 DCIS 的检测率,引起人们对潜在的过度诊断和随后的过度治疗的担忧。这种增加可能部分是由于癌症的早期检测,否则这些癌症将被诊断为侵袭性间隔期或下一轮癌症。目前尚不清楚 AI 支持的筛查中 BCDR 的增加(包括 DCIS 检出率的提高)是否或在多大程度上会导致间期癌症的发生率降低、侵袭性疾病的分期分布更好以及下一轮筛查检测到的发生率降低癌症。了解较高的 DCIS 和 1 级癌症检出率对间期癌症发生率和分期分布的重要性至关重要,但只有在 2-3 年的随访后才会变得清晰。其中,被拒绝的安全网病例将是一个有趣的亚组,有助于了解过度诊断与间期或下一轮癌症之间的比率。在本研究中,DCIS 检出率为每 1,000 名无 AI 女性 0.8 例,每 1,000 名 AI 女性 1.4 例,而每 1,000 名无 AI 女性中有 4.8 例浸润性疾病检出,而每 1,000 名 AI 女性中有 5.2 例 DCIS 检出。一旦在未来的研究中确定了过度诊断的真实程度,就应该权衡人工智能检测更多 DCIS 病例的潜力,否则这些病例不会进展为侵袭性疾病。
其次,尚不清楚触发安全网但被放射科医生拒绝的检查是否代表读者的正确决定,因此是减少召回和过度诊断的关键安全措施。这些病例可能错失了早期发现更多癌症并进一步提高整体项目绩效的机会。这些问题将在 2 至 3 年的后续分析中进行调查。最后,应该定义(例如,通过指南)并评估一种设置,其中人工双重阅读可以被人工智能支持的解释所取代。这应包括对人工智能使用的风险效益评估以及法律影响。
将人工智能融入筛查工作流程预计将缓解许多筛查项目所经历的劳动力短缺问题。我们将使用人工智能(以决策推荐方法部署)的双阅读系统中的一个或两个读者的性能与两个不使用人工智能的读者的性能进行了比较。因此,我们并没有直接评估通过整合AI可以实现多大程度的阅读工作量减少。然而,我们观察到,与没有可靠预测的检查和使用安全网的检查相比,人工智能组的放射科医生花在解释人工智能标记为正常的检查上的时间更少(扩展数据图 1)。4),从而使放射科医生能够更好地分配时间。在一项事后分析中,假设放射科医生不阅读所有标记为正常的检查,也不将其转发给共识会议,我们观察到阅读工作量减少了 56.7%。有趣的是,这导致召回率显着降低(±15.0%(±18.6%,±11.2%)),同时 BCDR 仍提高了 16.7%(4.9%,29.9%)(表5)。这种潜在的工作量减少与通过 ScreenTrustCAD 中使用的读卡器替换策略和 MASAI 中基于风险的分类所实现的效果相当15,16。
我们的研究有一些局限性。PRAIM 是一项观察性研究,没有将筛查检查随机分配给人工智能支持的组和标准护理组。因此,存在混杂因素影响放射科医生使用人工智能解释检查的决定的风险,这可能会使研究结果产生偏差。事实上,我们观察到了一种读者行为,即一些放射科医生更喜欢使用人工智能支持的查看器阅读正常标记的检查,并使用标准查看器解释未标记为正常的检查,包括安全网中的检查。此行为的部分原因可能是由于可用查看器的功能差异造成的。例如,同步缩放(同时放大所有四个视图的能力)是仅在研究期间在支持人工智能的查看器中引入的功能,而没有人工智能支持的其他查看器通常已经具有此功能。这种读者行为造成了偏见(扩展数据图 1)。6)在没有人工智能支持的情况下解释的检查中乳腺癌患病率更高。通过使用具有重叠权重的倾向得分(扩展数据图 1)。3),我们可以克服 BCDR 上的这种偏差,如模拟分析(“统计方法”中所示)方法)。替代统计方法和敏感性分析,包括对潜在混杂因素的额外调整、读者设置变量的不同参数化、安慰剂干预分析、重采样方法和纠正混杂因素的替代统计方法,一致证明我们的研究结果既公正又稳健。
我们的研究有几个优点。除了大量参与者和现实世界环境可能导致更保守的影响之外,该研究的一个优势在于其前瞻性设计。回顾性分析受到信息偏差的限制,因为仅通过人工智能识别为提示癌症的检查的最终结果通常是未知的。我们的研究克服了这一限制,因为放射科医生在做出临床决策时考虑了研究组中的人工智能预测。PRAIM 的另一个优势是对亚组结果的广泛报告。在人工智能支持的筛查中,他们在筛查轮次、乳房密度和年龄方面表现出不劣质甚至统计上优越的 BCDR。因此,AI可以考虑用于全筛查人群,不需要分层使用。尽管不是限制或优势,但值得注意的是,本研究使用的数据是放射科医生在人工智能使用的早期阶段(学习阶段)收集的。随着放射科医生越来越熟悉该技术,放射科医生和人工智能之间的交互行为以及由此实现的筛查计划指标可能会发生变化。
总之,我们的研究结果大大增加了越来越多的证据,表明人工智能支持的乳房X光检查是可行和安全的,并且可以减少工作量。我们的研究还表明,将人工智能集成到筛选工作流程中可以提高 BCDR,同时召回率相似甚至更低。人工智能支持的筛查对整体项目绩效指标的重要下游影响,包括后续筛查中的间期癌症发生率和诊断分期分布,需要进行后续调查。尽管如此,根据现有的乳腺癌检测、召回率、活检 PPV 和时间节省方面的证据,应立即努力将人工智能支持的乳房 X 线摄影纳入筛查指南,并促进人工智能在乳房 X 线摄影筛查项目中的广泛采用。
这项研究符合所有相关的道德法规。女性被告知每个筛查站点人工智能软件的使用情况,并且她们的数据根据适用的数据隐私规则(包括《通用数据保护条例》)进行处理。该研究方案已在德国临床试验注册中心(DRKS00027322)注册,并得到吕贝克大学伦理委员会(22-043)的批准,无需知情同意。
研究中使用的人工智能模型是商用人工智能系统(Vara)的一部分。不同的基于深度学习的人工智能模型用于正常分类和安全网。这些模型是由在乳腺 X 线摄影图像上训练的深度卷积神经网络组合构建的。这些图像的标签(正常、良性、恶性)来自放射学报告、结果注释和活检数据。随后的筛查结果用于确认标记为“正常”的样本。人工智能系统通过在聚合模型中结合事件图像的每图像分数及其先验(如果可用)来评估乳房 X 光检查结果的可疑性。最终分数代表模型对特定案例的可疑性的置信度估计。这些模型经历了两个优化过程,一个旨在高灵敏度(正常分类),另一个旨在高特异性(安全网)。扩展数据图 1 中显示了人工智能将癌症病例错误分类为正常以及正确发现两位放射科医生通过安全网错过的癌症的示例检查。5。这些模型在包含超过 200 万张图像的数据集上进行了训练和验证,以识别乳房 X 光照片中的恶性乳腺组织。为了促进 AI 模型的训练,放射科医生用多边形注释了超过 200,000 张图像。模型内部为每次检查输出 0 到 1 之间的分数,其中 0 表示最大程度不可疑,1 表示最大程度可疑。阈值根据代表德国筛查的单独回顾性数据集进行校准18然后应用平均 60% 正常分类率和 1.5% 安全网触发率得出二元决策(正常与不正常、安全网与无安全网)。对于其余检查,既不显示“正常”标签,也不显示“安全网”。所有向AI组进行考试的放射科医生在开始使用AI支持的观众之前,都对AI组进行了考试。该培训涵盖了软件的功能,包括对普通分类标志的解释和安全网警报。
在研究期间,接受检查的医疗设备进行了一系列更新,从1.0.5版过渡到2.6.2(总共十个更新)。构成医疗设备基础的AI模型已更新了三次,没有一个使用研究中的数据。
从官方乳房X线检查程序的标准化文档(链接到AI系统的数据)中检索了有关该过程,结果,参与者和检测到的癌症的数据,然后以匿名形式转移到评估数据库。为了分析,缺少结果数据的女性(666名妇女,0.1%;图。1)或取消(610名女性,0.1%)被排除在外。结果
乳腺癌后乳腺癌的怀疑是通过术前活检或手术活检证实的。通常在2周内完成未检测到的乳腺癌的女性的检查,但是癌症诊断和治疗的最终文件可能需要几个月的时间。因此,从筛查之日起,随访时间至少为200天。召回被定义为重新诊断检查的妇女。BCDR和召回率在筛选循环(第一次随访),乳腺密度(美国放射学院密度水平I/II(无endensense)与III/IV(密集)中进一步分层)和年龄段(59年对60年69岁)。
次要结果指标是AI预测(正常或不正常,安全网)及其在诊断中的作用。当读者最初认为考试不吉利并显示出警告和本地化时,当AI模型的得分超过安全网的校准阈值时,考虑到安全网被触发。”当放射科医生更改评估时,AI支持的观众中的安全网也被接受。最后,通过AI预测对AI组进行了评估,在AI组中评估了放射科医生的时间。
在数据收集期间,通过用户反馈会话与放射科医生和AI供应商进行了学习,放射科医生选择使用AI支持的观众进行最终乳房X线照片报告有时依赖于初始AI预测(正常相对于不正常),在工作清单中已经可见了(扩展数据图。1)。AI支持的观众还提供了一个分类的工作列表选项卡,其中仅向正常的检查进行了一次,以进行快速阅读。
一个常见的情况描述的是,一些放射科医生倾向于阅读AI支持的查看器中标记为“正常”的所有当前考试,之后切换了他们的软件,然后在没有AI软件的情况下读取对照组中的其余检查。这种行为的原因是,当所有参与的读者在初始读取过程中使用相同的观看者进行注释时,共识会议更加方便,因为这允许在共识会议期间轻松显示所有读者的注释。相比之下,由于缺乏软件互操作性,在不同观众中显示注释并不能完美无缺。因此,当筛选考试未正常标记时,一些读者倾向于切换到另一个观众软件,以简化与不使用AI支持的观众的同事的工作。此外,AI支持的观众不支持某些有助于诊断可疑病例的功能(在非正常检查中更有可能),例如同步变焦(同时扩大所有四个视图的能力)。我们称这种观察到的行为 - 阅读行为偏见。在原始研究设置中不会预料到这种做法,并引入了严重的选择偏见(扩展数据图。6)。共享说明此偏见的数据(代码可用性语句)。
因此,必须调整原始分析计划。
每个研究组的样本量为200,000个女性,用于通过最初计划的分析来评估BCDR的AI非效率。由于上述读取行为偏见,这是由现实世界的作用引入的,而在原始研究设置中没有预见,可能存在严重的偏见。在估计AI的效果时,进行了仿真研究,以(1)确定可以成功纠正这种偏见的统计方法,并且(2)估计每种考虑的统计方法的预期功率。仅考虑的方法之一是一种简单的回归模型,具有癌症检测(是与否)为结果变量,干预措施(AI和对照组)作为预测因子,准二比误差分布以及使用倾向分数重叠的重叠加权23,24在模拟研究中提供了公正的结果和足够的高功率。使用了倾向评分加权估计量的经验三明治方差23,24。倾向分数取决于评估检查和AI预测的读取器集(正常与不正常),这些预测被确定为因果图分析中的最小调整集(见下文),并使用逻辑回归进行了计算。由于某些倾向得分相当极端,因此使用重叠权重(扩展数据图。3a),表明某些读者集很少使用AI支持的观众,而其他一些读者通常会使用。重叠权重的目的是将最高的权重放在数据上,其中使用AI(AI组)读取检查的倾向,而没有AI(对照组)非常相似,并且对具有极高倾向分数的数据的重量较小。扩展数据图。3b表明,在重叠加权之后,将权重的最大比例放在中等倾向得分的区域(即贡献给AI和对照组的读者),并且在AI组中倾向的分布是在两个研究小组中都相同,表明两组之间的混杂因素平衡23,24。
对于乳腺癌的检测,如果AI组的检测率最多比对照组低10%,则认为AI支持的读数是非潜的。更具体地说,差异的95%CI的下限必须高于10%的阈值。如果成功证明了非效率,则可以证明对优越性的顺序测试是合理的25。如果CI的下限超过0。对于召回,如果AI支持的读数是非潜的,则如果AI组中的召回率最多比对照组高10%,则将其视为非潜。
基于模型的BCDR预测(总和通过侵入性,阶段,等级和肿瘤大小)以及召回率(包括PPV),共识会议和活检(包括PPV)和对照组是从AI中得出的。回归。如上所述,通过拟合回归拟合回归对相应的亚组的数据进行拟合回归,并像以前一样得出基于模型的预测,从而进行了亚组分析(乳房密度和年龄组)。
敏感性分析了解决其他混淆,采样误差和模型决策的敏感性分析(结果)。所有分析均使用Psweight(版本1.2.0)的R(4.1.3版)进行。24,dagitty(版本0.3.1)26和marginaleffects(版本0.18)27 号,以及Python(版本3.10)28使用软件包Dowhy(版本0.11.1)29。所有分析均作为代码的一部分共享(代码可用性语句)。还可以根据要求提供更多信息。
研究了干预措施(使用AI,主要预测因子)对终点(乳腺癌检测,召回,共识会议,活检)的因果影响。根据理论,领域知识和先前的经验证据,评估了所有考虑的变量之间的所有直接路径:乳房密度随着年龄的增长而降低30;参与更多的筛选回合随着年龄的增长而增加;乳腺癌风险随着年龄的增长而增加31;乳房密度与乳腺癌风险有关32,33;参加第一次筛查的女性中的乳腺癌患病率更高34;读者的变异性存在于乳房密度类别的分类中35;AI预测与乳腺癌的存在或不存在有关18;存在阅读行为,因此AI预测会影响使用AI支持的软件的使用;放射科医生的个人偏好和态度会影响他们采用AI的决定36;放射科医生在解释乳房X线摄影检查方面具有不同水平的专业知识和能力37;监督放射科医生的参与引入了第三名读者,影响了癌症的检测和回忆。并且可能与乳腺癌风险增加有关的未知因素。
所得的因果图在扩展数据图中显示。2。根据后门标准,读者集是一个混杂的人38。由于不可能调整潜在的(不可观察)混杂因素 - 乳腺癌(目前或不存在),我们对代理进行了调整(即相关变量 - AI预测),这是这也是观察到的阅读行为的直接原因:一旦放射学家观察到工作清单中的AI预测,他们就重新考虑了用于提交报告的观众软件39。因此,对这两个混杂因素控制的主要分析模型:读取器集和AI预测。
筛查和乳房密度的三个变量是干预和结果的祖先,而监督是结果的祖先。一些作者建议对所有干预和/或结果的祖先进行调整39。因此,我们还验证了使用R Package Dagitty(版本0.3.1)添加刚刚提及的四个变量的形式调整集。26。敏感性分析的结果,其中还提供了所有四个变量(扩展数据表)3)。通过将协变量添加到倾向得分模型中来进行调整。
总体而言,因果图意味着应在观察到的数据中保持的12个(条件)独立性。我们使用Gretton等人的基于内核的统计独立性测试对此进行了测试。40。实际上,所有独立语句都必须表明,定义的因果图与观察到的数据一致。
有关研究设计的更多信息,请参阅自然投资组合报告摘要链接到这篇文章。
研究方案可在https://research.uni-luebeck.de/en/projects/prospective-multicenter-bervational-study-study-observational-observation-of-an- integrated-ai-s。匿名分析数据集(包括个别参与者数据和定义每个字段的数据字典)可通过Dryad AT获得https://doi.org/10.5061/dryad.zs7h44jgn(参考。41)。
有关灵敏度分析和仿真研究的详细信息,可从nora.eisemann@uksh.de获得。请求将在1个月内回答。
复制结果所需的代码和支持信息,可通过Zenodo获得https://doi.org/10.5281/Zenodo.10822135(参考。42)。培训的守则评估的AI系统是专有系统的一部分,由于商业原因无法共享。但是,AI系统可用于外部研究评估合作,适用于提供方法上有声学建议的研究人员。提案应直接向stefan.bunk@vara.ai,并将在1个月内得到答复。
独立的英国乳腺癌筛查小组。乳腺癌筛查的好处和危害:独立审查。柳叶刀 380,1778年1786年(2012年)。
Katalinic,A.,Eisemann,N.,Kraywinkel,K.,Noftz,M。R.&Hã¼bner,J。在实施德国乳房X线摄影筛查计划之前和之后乳腺癌的发病率和死亡率。国际。J.癌症 147,709 718(2020)。
Perry,N。等。欧洲乳腺癌筛查和诊断质量保证指南(欧洲社区官方出版物办公室,2006年)。
Schã¼Nemann,H。J。等。乳腺癌筛查和诊断:欧洲乳房指南的概要。安.实习生。医学。 172,46 - 56(2020)。
调查发现,Gulland,A。工作人员的短缺使英国乳腺癌筛查处于危险之中。英国医学杂志 第353章,I2350(2016)。
欧洲委员会乳腺癌和结直肠癌倡议。欧洲乳腺癌筛查和诊断指南。癌症 - 筛选和care.jrc.ec.europa.eu/en/ecibc/european-breast-cancer-guidelines(2023)。
Heindel,W。等。数字乳房合成以及合成的乳房X线摄影与数字筛查乳房摄影,以检测浸润性乳腺癌(Tosyma):多中心,开放标签,随机,随机,控制,优越试验。柳叶刀 Oncol。 23,601年611(2022)。
美国预防服务工作组。乳腺癌筛查:美国预防服务工作组建议声明。美国医学会杂志 第331章,1918年(2024年)。
Freeman,K。等。在乳腺癌筛查计划中使用人工智能进行图像分析:系统审查测试准确性。英国医学杂志 第374章,N1872(2021)。
McKinney,S。M.等。用于乳腺癌筛查的人工智能系统的国际评估。自然 第577章,89 - 94(2020)。
Rodriguez-Ruiz,A。等。乳腺癌乳腺癌检测的独立人工智能:与101位放射科医生进行比较。J.国家癌症研究所。 111,916 - 922(2019)。
BYNG,D。等。国家乳房X线摄影筛查计划中基于AI的预防间隔癌症。欧元。J.Radiol。 152,110321(2022)。
Larsen,M。等。基于人群的筛查计划对122次乳房X线摄影检查检查的人工智能评估。放射科 303,502(2022)。
Marinovich,M。L.等。用于乳腺癌筛查的人工智能(AI):基于乳腺的癌症研究研究。E生物医学 90,104498(2023)。
Lâ¥ng,K。等。通过人工智能试验(MASAI),人工智能支持的屏幕阅读与标准双重阅读:对随机,受控,不耐心,单盲,筛查精度研究的临床安全分析。柳叶刀 Oncol。 24,936 - 944(2023)。
Dembrower,K。等。瑞典乳房X线摄影术中乳腺癌检测的人工智能:一项前瞻性,基于人群的,配对的,非效率研究。柳叶刀数字。健康 5,E703 e711(2023)。
Ng,A。Y.等。前瞻性实施AI辅助屏幕阅读以改善对乳腺癌的早期检测。纳特。医学。 29,3044年3049(2023)。
Leibig,C。等。结合了放射科医生的优势和乳腺癌筛查的AI:回顾性分析。柳叶刀数字。健康 4,E507 e519(2022)。
Roschewitz,M。等。在医学图像分类中采集转移下的性能漂移自动校正。纳特。交流。 14,6608(2023)。
Dembrower,K。等。基于人工智能的乳腺癌筛查乳房X线照片对癌症检测和放射科医生工作量的影响:回顾性仿真研究。柳叶刀数字。健康 2,E468 e474(2020)。
Hovda,T.,Tsuruda,K.,Hoff,S.R.,Sahlberg,K。K.&Hofvind,S。对筛查乳腺癌乳腺癌的先前筛查乳腺癌的放射学回顾。欧元。放射线。 31,2568年2579(2021)。
Hovda,T。等。在有组织的乳房X线筛查中进行的真实和错过的间隔癌:一项回顾性诊断和事先筛选乳房X线照片的研究。阿卡德。放射线。 29,S180 s191(2022)。
Li,F。,Thomas,L。E.&Li,F。通过重叠权重解决极端倾向得分。是。J.流行病学。 188,250 257(2019)。
Zhou,T.,Tong,G.,Li,F.,Thomas,L。E.&Li,F。Psweight:用于倾向分数加权分析的R包装。RJ。 14,282 300(2022)。
Head,S.J.,Kaul,S.,Bogers,A。J. J. C.&Kappetein,A。P.非效率研究设计:可以从心血管试验中学到的教训。欧元。心 J。 33,1318年1324(2012)。
Textor,J.,van der Zander,B.,Gilthorpe,M.S.,LiåKiewicz,M。&Ellison,G。T. H.使用定向的无环形图:R packagedagittyâ。国际。J.流行病学。 45,1887年1894年(2016年)。
Arel-Bundock,V.,Greifer,N。和Heiss,A。如何使用R Marginaleffects为R和Python解释统计模型。J. 统计。软件。 111,1 32(2024)。
Rossum,G。V.&Drake,F。L.Python语言参考手册:For Python版本3.2(网络理论有限公司,2011年)。
Sharma,A。和Kiciman,E。Dowhy:因果推理的端到端图书馆。预印本于https://arxiv.org/abs/2011.04216(2020)。
Krishnan,K。等。对乳腺癌风险预测乳腺X线摄影密度措施的纵向研究。癌症流行病学。生物标志物 26,651 - 660(2017)。
Quante,A。S。等。估计德国的乳腺癌负担及其对基于风险的筛查的影响。预防癌症资源。(Phila。) 14,627 - 634(2021)。
博伊德,N。F。等。乳腺X线摄影密度以及乳腺癌的风险和检测。N. Engl。J. Med。 第356章,227â236(2007)。
Bodewes,F。T. H.,Van Asselt,A。A.,Dorrius,M。D.,Greuter,M。J. W.&de Bock,G。H.乳腺乳腺癌乳腺癌密度和乳腺癌的风险:系统评价和荟萃分析。胸部 66,62 - 68(2022)。
Jahresbericht评估2021。Deutsches乳房X线筛选程序(KooperationsGemeinschaft乳房摄影,2023年)。
Singh,J。M.等。体积乳房密度评估:串行检查中的可重复性和与视觉评估的比较。罗福 185,844 A 848(2013)。
Hâgberg,C。,Larsson,S。&Lâ¥ng,K。乳房X线摄影筛查中的人工智能:瑞典乳房放射学家的观点。BMJ 医疗保健信息。 30,E100712(2023)。
N. Clerkin,Ski,C。F.,Brennan,P。C.&Strudwick,R。识别与乳房X线照片报告中诊断性能差异相关的因素:审查。射线照相(Lond。) 29,340 346(2023)。
Byeon,S。&Lee,W。指示临床研究的无环图:教程。J.米尼姆。侵入性外科手术。 26,97 - 107(2023)。
Van der Weele,T。J。混杂因素的原则。欧元。J.流行病学。 34,211 219(2019)。
Gretton,A。等。独立的内核统计检验。在NIPS'07:第20届国际神经信息处理系统会议论文集(Eds Platt,J。C.等人)585â592(Curran Associates,2007年)。
Eisemann,N。等。乳腺癌筛查中的人工智能:一项全国性现实的前瞻性队列研究(PRAIM)的结果。树妖 https://doi.org/10.5061/dryad.zs7h44jgn(2024)。
Eisemann,N。&Baltus,H。基于人群乳房X线摄影筛查中的癌症检测的代码和支持文件:全国现实世界中的前瞻性队列研究(PRAIM)的结果。泽诺多 https://doi.org/10.5281/Zenodo.10822135(2024)。
我们衷心感谢D. BYNG对启动Praim研究的早期贡献,尤其是与研究方案和现场入职相关。我们感谢筛选站点的支持(Mittelrhein,Niedersachsen-Sã¼d-West,Niedersachsen-Nord,Niedersachsen-Nord,Hannover,Herford/Minden-Lã¼bbecke,Steinfurt,Kã¶lnrechtsrheinisch/revhtsrheinisch/leverkusen,wuppertal/wuppertal/wuppertal/solsander/niendersand ersand ersanters nied niendersenserne nied nied nied ersentern,niting niding,米特(Mitte),圣dwestlichesSchleswig-Holstein,Wiesbaden,Niedersachsen-Nordwest)。我们还感谢D.Schã¼和B. Strauch提供的宝贵技术支持和数据处理工作。最后,我们感谢所有向研究贡献数据的妇女。该研究由VARA资助。VARA参与了数据设计,收集和解释以及报告的撰写。
Universitâtiesit -Zulã¼Beck提供的开放访问资金。
该研究由VARA资助。VARA参与了数据设计,收集和解释以及报告的撰写。所有作者都可以访问所有数据,并负责提交论文的决定。S.B.,T.M。和 C.L.作为标准薪酬套餐的一部分,是VARA的现有员工。G.H.,R.R.,T.G.,T.T。和T.W.V.作为放射科医生和VARA的客户积极参与研究。T.T.从Vara获得了发言人费用。A.K.获得了Vara的一般咨询和发言人费用。K.S.-L。收到了Hologic的咨询费。S.H.-K。与ICAD和ScreenPoint(无付款)进行了研究合作。其他作者声明没有竞争利益。
自然医学感谢Suzette Delaloge和其他匿名评论者对这项工作的同行评审的贡献。主要处理编辑:明杨和洛伦佐·里格托(Lorenzo Righetto)与自然医学团队。
出版商的注释施普林格·自然对于已出版的地图和机构隶属关系中的管辖权主张保持中立。
)屏幕截图显示了一个工作清单,其子集的检查为正常。放射科医生还可以选择仅阅读正常考试,或者仅不正常检查(可能是可疑的)。出生的名称和日期不是真实的,并且是从共同的名字和姓氏列表中随机取样的。乙) 和c)当放射科医生评估案例为正常情况(BI-RADS 1或2),但触发安全网时,显示了警报(乙)观众中突出显示了一个可疑区域(c),要求放射科医生重新考虑。扩展数据图2因果图(定向无环图,DAG)。
在被包括在DAG中之前,根据理论,领域知识和以前的经验证据评估了所有考虑的变量之间可能的直接路径。BC:乳腺癌;AI:人工智能。框:观察到的变量;圆形和虚线:潜在变量。
)倾向得分的分布(用于AI组),通过在对照组或AI组中进行分层。乙)以给定倾向评分(在AI组中)的筛查考试在多大程度上有助于总体样本重量。扩展数据图4阅读时间。
平均而言,与未分类的检查时间中位数为30秒,并且安全网检查的中位数考试相比,标记为正常的考试的中位数为16秒,其中间阅读时间为16秒。中间阅读时间为99秒。
)该癌症仅由于安全网激活而被诊断出来。最初,读者都没有看到侵入性癌(BI-RADS 1/2),但两者都在显示安全网后将其评估更改为Bi-Rads 4 a。右乳房的MLO视图显示出建筑失真。召回期间的超声检查确定了高度可疑的恶性发现。组织学:侵入性乳腺癌,没有特殊类型,PT1B(9毫米)疗法,PT1C(19毫米)后OP,N0,M0,G2。乙)该检查被AI分类为正常。两位读者都使用了AI支持的观众,并否决了AI(分别为BI-RADS 4B和BI-RADS 4 A)。右乳房的MLO视图显示质量。组织学:侵入性乳腺癌,没有特殊类型,PT1B(9毫米)疗法,YPT1C(12毫米)后OP,N0,M0,G2。
Excel文件说明了阅读行为对跨研究组未经调整的乳腺癌检测率的影响的影响,即使在两个研究组中乳腺癌的检测率相同。该图表明,即使是较小的采用率差异从61.7%到66.8%,也会导致未经调整的测量乳腺癌检测率差异为13.6%(偏见)。因此,有必要在主要分析中控制这种阅读行为。Excel文件可用于进一步分析(10.5281/Zenodo.10822135)。
开放获取本文根据知识共享署名 4.0 国际许可证获得许可,该许可证允许以任何媒介或格式使用、共享、改编、分发和复制,只要您对原作者和来源给予适当的认可,并提供链接到Creative Commons许可证,并指示是否进行了更改。本文中的图像或其他第三方材料包含在文章的创意共享许可证中,除非在材料的信用额度中另有说明。如果文章的创意共享许可中未包含材料,并且您的预期用途不得由法定法规允许或超过允许的用途,则需要直接从版权所有者那里获得许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。转载和许可
等人。全国范围内实施了基于人群乳房X线摄影筛查的癌症检测的AI实施。自然医学(2025)。https://doi.org/10.1038/s41591-024-03408-6
已收到:
公认:
已发表:
DOI:https://doi.org/10.1038/s41591-024-03408-6