英语轻松读发新版了,欢迎下载、更新

乳腺癌的机器学习预测局部复发的定位和局部复发后远处转移

2025-02-10 06:38:14 英文原文

作者:Tőkés, Anna Mária

介绍

许多研究的重点是与乳腺局部复发有关的各种肿瘤特征的重要性(LR)。尽管已经对乳腺癌复发风险和几种算法进行了多种预测指标,但据我们所知,尚无研究模型来预测乳腺癌LR的定位和随后的遥远转移1,,,,2,,,,3

乳腺癌复发可以以局部或局部复发的形式发生,也可以作为遥远的转移表现出来。疾病的不同形式与不同的结果有关,需要不同的治疗方法4,,,,5。LR可能发生在残留的乳房组织或胸壁或皮肤的组织中,也可能影响新形成的疤痕组织。基于Maastricht Delphi共识,所有复发性侵入性乳腺癌或同侧乳房中的原位(DCIS)或皮肤和皮下组织在同侧胸腔壁上被认为是局部事件6

根据重要的研究,LR在生物学上是不均匀的疾病。可以分开具有良好和不利预后的肿瘤7。LR可以从在机车生存辅助治疗(真实复发)的原发性肿瘤的其余细胞(PT),或者可能从新克隆作为第二个PT形成或可能从原位癌(新形成的PT)发展(新形成的PT)8,,,,9,,,,10,,,,11。日本研究人员评估了乳房延伸手术后四种类型的同侧乳腺肿瘤复发。那些远离疤痕组织或接近疤痕的人,源自残留的原位癌的结果比真实复发更好(由于在局部肿瘤细胞中幸存)12。将真实复发和新形成的原始遗传特征与原始PT进行比较,或比较在不同的本地化中发生的复发的不同特征可以进一步阐明疾病生物学差异,但是此类研究很少10。在旨在帮助预测乳腺癌预后的各种分子标记和测试中,PIK3CA-AKT信号通路一直是多项研究的重点。PIK3CA突变在HR阳性乳腺癌中最常见,最近的数据表明,PIK3CA-AKT途径中具有突变的耐药性肿瘤细胞更可能患有疾病复发11

几项研究应用了ML算法并综合了多个肿瘤变量,以提高诊断和预后的准确性。例如,Lou等人。通过包括几种临床特征,护理质量和术前生活质量,将各种ML算法的性能进行比较,以预测乳腺癌手术后的十年内复发13。最近的另一项研究使用了三种不同的ML模型来预测非常异构的患者样本中乳腺癌的复发14。补充表S1简要概述了使用ML技术的最新出版物,并专注于乳房复发。而ML模型越来越多地用于预测乳腺癌复发和远处转移2,,,,14,,,,15,,,,16,,,,17,,,,18,,,,19,,,,20,考虑了局部复发(LRS)不同定位的研究以及原发性癌症及其相应复发的不同肿瘤特征。

在我们的研究中,我们将原发性乳腺癌的几种临床病理学和分子因子与胸壁复发(CWR)(在疤痕组织和胸壁皮肤内复发)与在乳腺实质中检测到复发并研究这些形式的结果并研究这些形式的结果的临床病理学和分子因子。疾病复发。通过使用四个ML方案,我们旨在阐明ML是否可以在不同的定位和进一步遥远的转移中预测LR的发生。

结果

临床病理学特征

患者的临床病理特征总结在表格中 1。我们研究中的所有154例患者均有一些局部复发(剩余的乳房实质,手术疤痕组织和胸壁皮肤的73、63和18例)。患者平均为133.16个月(范围13至429个月)。初次诊断后平均发生LR 71.63(范围3至278)。在46/154(29.9%)的病例中,LR在3到24个月之间(早期复发)之间检测到40/154病例(26%)25到60个月(中期复发),在68/154病例中(44.2%)经过60个月(晚期复发)。主要诊断后长达23年,检测到复发。在154名患者中,有33名无病的幸存者成为10年的无病幸存者,因为在10到23年后发现了这些晚期复发。在相对较长的随访时间内,在91/154(59.09%)的病例中观察到遥远的转移,而从LR诊断到第一次检测到远处转移的平均时间为28.45个月(范围为170个月)。

表1患者临床病理数据的分布。各种因素对不同本地化中局部复发的影响。

我们还为154 LR案例收集了PT的特征(表 1)。PT诊断时患者的中位年龄为54岁(范围30年91岁)。大多数患者(70%)患有I期或II期PT。在138例已知激素受体(HR)状态的病例中,有104例患者(75.3%)患有HR阳性,34例(24.7%)患有HR阴性疾病。详细的亚型分布显示在表中 1。在有据可查的HER2阳性病例中,有15例患者接受了HER2针对原发性乳腺癌的靶向疗法(直到2009年,在2009年才能在辅助或新辅助设置中使用HER2指导的治疗)。所有接受治疗手术的患者:89(58.2%)接受了乳房持乳房的手术,64(41.8%)的乳房切除术总共切除术,并且在一种情况下没有数据可用。在73例接受乳腺疗法手术治疗的患者中,有关应用放疗的已知数据已有73例:60/73(82.1%)接受辅助放射疗法。在接受乳房切除术且可用数据的一组患者中,有67.2%(39/58)接受了辅助放疗。术后病理学揭示了79.3%的病例IDC-NST,ILC为11.7%,其他组织型为9.0%。在73/154(47.4%)病例中记录了同侧乳房实质的复发,而在81/154(52.5%)病例中的CWR。在CWR病例中,63/81(77.7%)发生在乳房手术疤痕中,18/81(22.2%)作为乳房或胸壁中的皮肤复发。

乳腺癌的机器学习预测当地复发定位

我们使用ML方法仅基于PT特征来预测LRS的定位。我们随机选择了124例培训病例,并随机选择了30例测试方法。我们尝试了几种分类方案(XGBoost有和没有特征选择,以及随机森林),通过训练集的交叉验证(请参阅– the the –方法和补充表S2)。在训练集的优化过程之后,我们测试了独立测试集中的最佳模型。我们独立检查了不同的预测任务,并报告了具有出色表现的任务(在测试集上〜0.7 roc auc)。

预测剩余的乳腺实质作为LR定位的表现与剩余的定位(即手术疤痕组织和胸壁的皮肤)的表现为0.77(图。 1一个)。该模型使用了19个特征,预测的最重要特征是手术类型(乳房良好或激进),诊断时的年龄和切除余量(图。 1b)。将手术疤痕组织预测为LR定位的表现与剩余的定位(即剩余的乳房实质和胸壁的皮肤)的表现为0.69(图。 1c)。该模型仅使用了四个特征,预测的最重要特征再次是手术类型,但是在诊断时年龄,KI67阳性比和孕酮受体(PR)状态也很重要(图。 1D)。

图1
figure 1

乳腺癌的机器学习预测局部复发定位。((一个)使用原发性肿瘤(PT)特征,其余乳房实质的恢复性(即手术疤痕组织或皮肤)的预测性能(ROC AUC)。((b)最重要的特征及其对最佳模型的产量的影响,可预测LR的剩余乳腺实质定位。图的右侧或左侧的情况表明,给定特征分别对预测产生正面或负面影响(每个点代表一个测试案例)。距离越远,功能越重要。这些特征是按重要性排序的(即,在决定复发的定位时影响)。蓝点表示低,红点表示给定测试案例的给定变量的高值(灰点表示缺失值)。在二进制变量的情况下,我们指出了以0或1值标记的情况。((c)手术疤痕组织定位的预测性能与任何其他检查的位置(即剩余的乳房实质或胸壁皮肤)的预测性能。((d)最重要的特征及其对模型输出的影响最佳模型,以预测LR的手术疤痕组织定位。BCS乳房保存手术,类别,历史组织学,LR当地复发,num数字,太平洋标准时间主要的全身疗法,pt原发性肿瘤,rad根治性手术,TNM肿瘤/节点/转移。

当地复发后的机器学习预测远处转移

我们还根据PT和LR特征预测了LR后DM的出现。我们使用了与上述相同的火车测试拆分和机器学习方法。LR后预测DM的性能为0.78(图 2一个)。该模型使用了32个特征,预测的最重要特征是PT检测与LR的发生之间的经过的时间,LR的定位(是否在其余的乳腺实质中)以及LR的治疗(是否趋化)。尽管PT和LR之间的较高时间以及LR在LR后剩余的乳腺实质中的定位降低了DM的机会,但LR的化学疗法增加了它的机会(图。 2b)。图2

局部复发后远处转移的机器学习预测。
figure 2

((一个LR后DM的预测性能(ROC AUC)。((b)最重要的特征它们对最佳模型的模型输出的影响预测了LR后DM的出现。图的右侧或左侧的情况表明,给定特征分别对预测产生正面或负面影响(每个点代表一个测试案例)。距离越远,功能越重要。这些特征是通过预测的重要性来排序的。蓝点表示低,红点表示给定测试案例的给定变量的高值(灰点表示缺失值)。在二进制变量的情况下,我们指出了以0或1值标记的情况。BCS乳房保存手术,类别,历史组织学,LR当地复发,m几个月,负面num数字,pt原发性肿瘤,rad根治性手术,nst没有特殊类型,pos积极的,TNBC三重阴性乳腺癌,rec复发,TNM肿瘤/节点/转移。

局部复发后遥远转移的生存分析

卡普兰·梅尔(Kaplan)分析还基于几个因素,例如在原发性乳腺癌检测到复发的发生之间经过的时间,在远处转移的情况下也显示出显着差异。早期复发与差的DMF显着相关(p<0.001)(图 3a,b)。原发性乳腺癌(<20%)中的PR表达低也与较短的DMF有关(p= 0.021)(图 3c)。与在乳房实质中出现的LR相比,胸壁上局部复发的患者面临远处转移的发生率更高(p= 0.001)(图 3f)。然而,在亚型(初级乳腺癌与相应LR之间)和远处转移的发生之间未检测到切换之间的关联(p= 0.057)(图 3e)。在83例中,主要和复发对中的亚型定义都可以使用。在53/83病例中发生了PT和配对局部复发之间的这些亚型一致性。雌激素受体(ER),孕酮受体(PR)和Ki67原发性乳腺癌与相应的局部复发病例之间的一致性通过情况进行了分析。通过比较上述三个标记在初级与相应LR中的表达,未检测到统计学上的显着变化(图。 3D)。图3

局部复发后遥远转移的生存分析。
figure 3

((一个,,,,b)远处的无转移生存期(DMF),该生存期在诊断出原发性乳腺癌后24个月内发生了复发时间。((c)DMF在原发性乳腺癌(<20%)中被低或高PR表达隔开。((d)在原发性乳腺癌(PT)与相应复发(REC)中,ER,PR(PR)和Ki67蛋白表达的变化。((e)DMFS用于开关或不切换子类型。((f)DMF被复发的不同定位所隔开。((g)DMF被单个或多个局部复发的发生分隔。

在51/154(33.11%)病例中诊断出多个LRS。然而,第二或多个局部复发的发生与较短的DMF没有显着相关(p= 0.169)(图 3g)。与在乳房实质中检测到的第一次复发的患者相比,被诊断为手术疤痕复发(28/63例(44.44%))的患者组的第二或多重复发比率更高(28/63例(44.44%))(19/73例(19/73例)((26.02%))。在后来出现两种或多个局部复发的原发性乳腺癌的临床病理学特征中,LUMB1亚型的高比例(22/35(62%))与表现为单个复发性肿瘤的患者相比,很明显,其中只有26/其中85例(30.58%)提出了LUMB1亚型。

PIK3CA突变

PIK3CA突变分析以34对(原发性乳腺癌和相应的LR)进行。在分析的PTS的14/34(41.1%)中检测到致病突变,在相应的复发性病变中检测到12/34(35.2%)。在外显子9(E542K/E545K)(10/14病例)中检测到原发性乳腺癌中最常见的PIK3CA突变,然后在外显子20(3/14病例)(H1047XR/H1047L)中进行突变,并通过Exon 7(1)突变(1)/14个案例)。在LR中,突变的频率为以下:在8/12病例中外显子9中的突变,3/12例外显子20中的突变以及1/12例外显子7中的突变。在某些情况下,PIK3CA突变体PTS患者复发是野生类型,反之亦然。在组合分析中,3例患者将基因型从野生型变为突变体,而4例复发中的突变却失去了突变(表 2)。在10/14例中诊断出具有PIK3CA突变的14个原发性乳腺肿瘤中,在野生型肿瘤中,该比率为11/20。表2与局部复发对相比,原发性乳腺癌中有不一致的PIK3CA突变的病例。

讨论

在这项研究中,我们旨在通过考虑可用的患者级数据和ML算法来确定重要的关键乳腺肿瘤特征,以预测乳腺LR定位和远处转移的发生。

这一点尤其重要,因为即使经过足够的初级治疗,该疾病的LR也有52%的乳腺癌患者可见21,,,,22,,,,23,,,,24,,,,25复发可以在各个位置体现,跨越了很长时间23

LR患者的几项研究经历了远处转移和死亡的风险升高。根据我们的结果,使用ML算法,我们发现解剖学(复发性肿瘤的位置)和时间(从主要诊断到局部复发的时间)是LR的最重要特征,可以预测器官转移。LR表示LR可能是辅助化疗和远处转移之间的诱导诱导和远处转移之间的正相关,即使采用化学疗法,LR可以是保留转移性潜力的指标,因此具有不同的,有针对性的类型的全身治疗类型可能更有益。

在乳房支撑手术后,最常见的复发定位是在剩余的乳房实质中,而胸壁复发主要发生在术后切除术后24,,,,25。胸壁皮肤复发主要在手术疤痕组织中或周围环境中看到,但也可能表现为非量表相关的皮肤病变26。关于为什么疤痕复发是局部复发的常见类型,有几种理论。手术后剩余的肿瘤细胞或手术溢出细胞可能是肿瘤再生或肿瘤干细胞激活的起源,这两者都通过伤口愈合而变化而增强。几项研究证明,手术组织损伤,随后赔偿为肿瘤生长提供了最佳环境27,,,,28,,,,29

局部复发定位的差异很可能是由于它们的生物不同,因此其预后意义有所不同,管理策略应相应地发展30。确定与肿瘤进展相关的最重要的肿瘤特征始终是一个挑战。

ML越来越多地应用于病理学和肿瘤学,并开发了几种预测模型以提高诊断和预后的准确性,并预测肿瘤进展16,,,,28,,,,31,,,,32(补充表S1)。在这里,我们在剩余的预测任务中预测LR后的DM的特征和LR的特征是在目标变量是复发特征时,我们仅使用了原发性肿瘤特征。采用了不同表现的机器学习方法进行分类,并根据ROC曲线选择了模型。Shap(Shapley添加说明)2,,,,16方法用于检查机器学习模型的输入特征的重要性。Shap方法还为我们提供了对预测的零影响(或接近零)的功能的数量。在我们的分析中,该数字分别为乳腺实质定位,手术疤痕组织和LR之后的DM的预测为14、29和45。这意味着排除这些功能不会大大改变预测性能。相比之下,包括更多功能,更多的样本,填充更多缺失值可以提高预测性能。在以后的研究中尝试它是最糟糕的。

使用机器学习算法预测乳腺癌复发的研究发现,Xgboost和Shap是研究乳腺癌复发的合适工具。Gonzalez-Castro等。已经发现,在五种评估算法中,可以预测5年癌症复发,XGBoost模型产生了最佳性能33。一项最近的研究使用了11种不同的机器学习算法来选择预测乳腺癌复发的最佳模型16。为了排除特征的重要性,他们使用了外形值,他们发现adaboost算法在成功预测乳腺癌复发方面具有最佳的预测性能。

在我们的CWR队列中,发生了63次疤痕复发和18种与SCAR相关的皮肤复发。在疤痕复发中,我们无法检查疤痕内肿瘤的确切位置(即皮肤的哪一层受影响)。周等人。得出结论,皮肤参与CWR是一个不利的预后迹象,它支持以下理论:皮肤参与手术疤痕复发可以强调肿瘤的传播能力,不仅是残留肿瘤细胞的肿瘤再生34

在预测局部复发或任何第二种乳腺癌的不同研究中分析的几种肿瘤特征中,诊断年龄,肿瘤大小和肿瘤等级是我们研究中最常见的特征32,,,,35

与许多研究一样,我们使用了可从病历中获得的预测因子和肿瘤功能。我们的研究与关注LRS的文献中的显着差异是,我们的研究重点是复发性肿瘤定位的重要性,还考虑了LRS对进一步肿瘤进展的影响以及LR对多种局部复发的影响。还特别注意PT和LR在预测肿瘤传播中的生物标志物差异。

因此,我们发现早期复发(初始诊断后不到2年)通常与全身复发(即DM)相关。早期复发和传播疾病与较差的疾病生物学有关:这些病例通常是TNBC。最初诊断后五年表现出的晚期复发主要是ER阳性肿瘤,具有低级和低阶段。Pan等。已经发现,即使经过5年的辅助内分泌疗法,早期的ER阳性乳腺癌仍然存在持续的风险,在原始诊断后至少20年,乳腺癌的复发和死亡的风险仍然存在36。在我们的系列中,有56%的早期复发病例(<24个月)是HR+提高了在不同的HR+乳腺癌中进行分化治疗的必要性。最近的一项研究表明,与患有Pr阳性原发性乳腺癌的女性相比,局部复发后死亡的风险较低(十年死亡率为30%比60%)。37

很少有有关非常晚期复发的数据可用。在我们的研究中,有20.77%的患者在初次诊断后患有LR 10年或更长时间。其中的大多数(83.33%)是HR+肿瘤。根据丹麦乳腺癌组的临床数据库,LR的12.77%发生在初次诊断后的10年以上23

部分尚不清楚PT和LR之间的生物标志物差异是否在预测肿瘤传播中起作用。根据我们的结果,肿瘤生物学的差异与全身复发没有显着相关,也没有与LR的位置相关。Okumura等。无法证明ER和HER2表达的变化与生存之间存在显着关联,但是Ki67表达的变化预测了远处转移38。肿瘤基因型分析可以在PT和LR之间建立相似性。尤其是在ER阳性BC中,评估最多的遗传改变是PIK3CA突变。PIK3CA突变的患病率根据乳腺癌的亚型和阶段而有所不同,大多数研究将PT PIK3CA突变状态与远处转移的状态进行了比较39,,,,40。Jensen等。检查了PTS及其配对转移的PIK3CA突变状态差异,并研究了这些差异是否可以预测生存。根据他们的研究,那些转移表现出PIK3CA突变的患者,最初不存在PT中的侵袭性疾病,但后来复发41。关于PTS和LR之间的PIK3CA突变差异的数据稀缺。Nakagomi等。分析了原发性乳腺癌和配对的LR病例。根据其组织病理学特征的比较以及针对乳腺癌驱动基因的靶向深层测序分析,创建了残留复发和双重类别。关于PIK3CA突变状态,残留复发的比例更高,表现出突变的基因型,与双重初次相比(85%vs. 25%),因此PIK3CA-AKT途径中突变的病例更可能患有复发性疾病11。我们发现41.1%的PT显示PIK3CA突变,而LR中的PTS突变为35.2%。在14例突变复发病例中,乳腺实质内发生了6例,其中8例是CWR。

LR的另一个重要特征是它通常不是一个奇异事件。根据Lim等人的研究。在20.7%的LR患者中,发生了另一次复发42。在我们的患者队列中,有33.11%的患者显示了多个LR。Geurts等。证明,如果第二次事件在一年之内进行了第一次LR,则80%的LR患者有远处转移。在我们的研究中,有72.5%的LR事件患者有远处转移43

我们承认我们的研究有一定的局限性。大多数病例都有很长的随访期,并且在这个长时间间隔期间,我们无法说明治疗方案的差异。这些病例需要根据亚型和重要的临床病理学特征进行进一步分类,从而导致一些统计分析的病例较少。作为现实世界数据的一个特征,一些肿瘤特征属于未知类别。重要的是要注意,尽管使用外部数据集验证我们的模型是有益的,但每个研究都来自具有可变特征的不同来源。我们尚未确定与各种肿瘤特征相结合的重复定位的研究。此外,在现有文献中很少解决多种局部复发的重要性。

结论

乳腺癌中的局部复发(LR)可​​能表现出异质的临床和病理特征。到目前为止,尚无预测模型用于乳腺癌LR局部化,只有少数研究预测基于原发性乳腺肿瘤和相应LR的几个特征的遥远转移发生。我们的结果表明,LR的定位很重要,并且具有预后的意义。皮肤的受累不仅是胸壁皮肤,而且外科疤痕的皮肤也表现出肿瘤的传播能力的增加,而且还与不利的结局有关。传统的预后因素和ML工具,结合肿瘤遗传分析可以建立基于高患者人数队列分析的预测模型,可以在LR患者的风险评估中提供数据。

我们的方法利用ML模型提供了一种风险评估的方法,使能够在LR时可以从精心计划的系统治疗中受益的患者选择。鉴于LR可能会预测癌症传播的可能性很高,因此对这些患者的早期鉴定可能会导致治疗结果改善。

方法

我们的最初队列由448例乳腺癌病例组成,该病例被诊断出局部复发。这项研究的主要目的是分析同侧复发的定位和LR的其他几个方面的预后意义,我们重点介绍了在这些病例上,在这些病例中,对于原发性乳腺癌以及相应的LR,可以使用尽可能多的临床病理学参数。因此,从初始队列中排除了PT和/或复发的几个缺失病理和/或临床数据的病例。最后,我们的回顾性研究包括154次原发性乳腺癌和1984年至2018年间诊断的相应LR对。该研究是根据赫尔辛基宣言进行的。患者的临床病理数据是从病理学系,法医和保险医学,塞米尔威大学布达佩斯和匈牙利医学研究委员会批准的Semmelweis大学医疗保健数据库(ETT-TUKEB 14383/2017和17781和17781年的批准)获得的。-3/2024)。可以提到的是,从2000年开始,就模棱两可的HER2免疫组织化学结果(得分2+)进行了HER2鱼,而ER的免疫组织化学数据自1992年以来就可以进行。在1992年之前检测到38/154。

根据Maastricht Delphi在乳腺癌研究中复发的共识来定义LR6。无局部无复发的生存定义为从原发性乳腺癌诊断到首次LR诊断的时间。远处的无转移生存率(DMF)定义为从原发性乳腺癌诊断之日到第一个DM发生的时间。所有患者均经过随访,直到死亡日期或2022年11月30日。

最重要的临床病理数据记录在表中 1。Among them are the patient’s age at diagnosis, histological grade, pathologic tumor size (pT), nodal involvement (pN), LVI, resection margins, applied oncological treatment regimens and surrogate breast carcinoma subtype as defined based on four immunohistochemical markers (estrogen receptor (ER), progesterone receptor (PR), Ki67 index and HER2) according to the 2013 St. Gallen Consensus Conference recommendations44。Luminal A (LUMA) tumors are defined as ER and PR positive, HER2 negative, Ki-67 “low” (Ki-67 < 20%) tumors, Luminal B-HER2 negative (LUMB1) tumors as ER positive, HER2 negative and Ki-67 “high” (≥ 20%) and/or PR “negative or low” (PR cut-point = 20%), Luminal B-HER2 positive (LUMB2) as ER positive and HER2 overexpressed or amplified and HER2 positive/hormone receptor (HR) negative, and, triple negative breast carcinomas (TNBC) as HR and HER2 negative.

PIK3CA mutation analyses

PIK3CA mutation status was determined in 34 pairs of PTs and corresponding LR with the Cobas®PIK3CA Mutation Test (Roche, Basel, Switzerland), following the manufacturer’s instructions. The test can detect mutations in exon 1 (p.R88Q), exon 4 (p.N345K), exon 7 (p.C420R), exon 9 (p.E542K, p.E545A/G/K, p.E545D (only the nucleotide change c.1635G> T), p.Q546E/K/L/R) and exon 20 (p.M1043I (only the nucleotide change c.3129G> T), p.H1047R/L/Y, p.G1049R) of the PIK3CA gene when the mutant allele frequency is 5% or greater. 50 nanograms of template DNA was used in 25 µl volume in each PCR reaction. Amplification was carried out in the real-time PCR-based Cobas Z 480 analyzer (Roche, Basel, Switzerland). All samples were run in triplicates. Results were interpreted using Cobas®4800 System Software version 2.0 (Roche, Basel, Switzerland).

Data preparation for machine learning and statistics

We performed one-hot encoding for the categorical variables that had three or more distinct values. After this process, all of the categorical variables became binary with 0 (i.e., false) or 1 (i.e., true) values. This is a regular pre-processing method preceding training by machine learning algorithms in the case we have categorical variables with more than two distinct categories. The final data table contained 154 rows (patients) and 84 columns (training features and target variables).

机器学习

Before training, we randomly split the feature table into ~ 80% training (n = 124) and ~ 20% test set (n = 30) to have enough patients for the training and the testing process. We experimented with several classification protocols (XGBoost33with and without feature selection, as well as random forest) and optimized the hyperparameters by 5-fold cross-validation (repeating 10 times) on the training set (Supplementary TableS2)。After the optimization process on the training set, we tested the best models on the independent testing set.We examined the different prediction tasks independently.In the prediction task of DM after LR, we considered only the cases when the metastasis was not the first recurrence.We used PT and LR features in the task of predicting DM after LR while in the remaining prediction tasks when the target variable was a recurrence feature, we used only the PT features.For each case, we performed a parameter optimization on the training set by 5-fold-cross-validation repeated 10 times.In the grid search, we considered 24 cases total with the parameter setting maximum depth = 1, 2, 3, 5, and the number of estimators (i.e., decision trees) = 1, 2, 5, 10, 20, 100. We used this process through four machine learning protocols: (i) using XGBoost classification and selecting the best model (the model with the highest mean ROC AUC) of the grid search, (ii) using XGBoost classification and selecting the best simple model (with maximum depth = 1) of the grid search, (iii) selection of the features by the best model of the XGBoost then re-train XGBoost only with the selected features, (iv) using random forest classification and selecting the best model of the gridsearch.Finally, we retrained a final model with the selected parameters on the entire training set.We examined the final models having remarkable performance (at least ~ 0.7 ROC AUC on the testing set).This criterion was satisfied in the prediction task of the remaining breast parenchyma (best XGBoost model; max depth = 3, number of estimators = 20), surgical scar tissue (best simple XGBoost model; max depth = 1, number of estimators = 10), and DM after LR (best XGBoost model; max depth = 3, number of estimators = 20) (Supplementary TableS2)。

模型说明

The SHAP (SHapley Additive exPlanations) method2,,,,16was used to examine the importance of the input features of the machine learning models. SHAP values show how each feature affects the final predictions (impact on the model output) and the importance of each feature compared to others. The highest the sum of the absolute impacts of a feature the more important is the feature in the prediction45

缺少值

While some clinicopathological data (localization of the LR, LR time from PT, multiple LR, DM, and age) are available for all the 154 examined patients, others may contain missing values (i.e., n/a). In most of the cases, the proportions of the missing values are lower than 20% (Table 1)。We did not use any missing value imputation techniques as the machine learning model implementations that we used can handle missing values as special values.RF and XGBoost build the missing values into the inferred models as rules of the decision trees.

统计分析

When we examined the relationship of two variables, we performed a Fishers’s exact test when both variables were binary, or a two-sidedt-test when one variable was binary and the other one was continuous, or we calculated a Pearson’s correlation coefficient (‘r’) when both variables were continuous. P-values below 0.05 were interpreted as significant. For the statistical analysis, we used the fisher_exact, ttest_ind, pearsonr functions from the stats module of SciPy (v1.7.1). For all data analysis, we used Python (v3.9.7). Distant metastasis free survival (DMFS) was evaluated using Kaplan–Meier survival curves and the log-rank test was used to compare DMFS between the two groups.数据可用性

The authors declare that the data supporting the findings of the presented study are available within the article. Detailed clinical data of individual patients cannot be provided due to ethical restrictions but are available upon reasonable request from the corresponding author. The most important clinicopathological data are presented in Table 1.

参考

Lin, T. H. et al. An advanced machine learning model for a web-based artificial intelligence-based clinical decision support system application: model development and validation study.

  1. J. Med。Internet Res。 26, e56022.https://doi.org/10.2196/56022(2024)。

    文章一个 PubMed一个 PubMed Central一个 Google Scholar一个 

  2. Liu, Y., Fu, Y., Peng, Y. & Ming, J. Clinical decision support tool for breast cancer recurrence prediction using SHAP value in cooperative game theory.Heliyon 10, e24876.https://doi.org/10.1016/j.heliyon.2024.e24876(2024)。

    文章一个 PubMed一个 PubMed Central一个 Google Scholar一个 

  3. Dhungana, A. et al. Development and validation of a clinical breast cancer tool for accurate prediction of recurrence.NPJ Breast Cancer10, 46.https://doi.org/10.1038/s41523-024-00651-5(2024)。

    文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个 

  4. Witteveen, A., Kwast, A. B., Sonke, G. S., MJ, I. J. & Siesling, S. Survival after locoregional recurrence or second primary breast cancer: impact of the disease-free interval.PLOS一个 10, e0120832.https://doi.org/10.1371/journal.pone.0120832(2015)。

    文章一个 PubMed一个 PubMed Central一个 Google Scholar一个 

  5. Falco, M., Masojc, B. & Kram, A. Locoregional relapse is a strong prognostic indicator of distant metastatic progression in breast cancer patients after negative sentinel lymph node biopsy.Breast J. https://doi.org/10.1111/tbj.14118(2020)。

    文章一个 PubMed一个 Google Scholar一个 

  6. Moossdorff, M. et al. Maastricht Delphi consensus on event definitions for classification of recurrence in breast cancer research.J. Natl。癌症研究所。 106https://doi.org/10.1093/jnci/dju288(2014)。

  7. Dent, R. et al. Factors associated with breast cancer mortality after local recurrence.Curr。Oncol。 21, e418–e425.https://doi.org/10.3747/co.21.1563(2014)。

    文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个 

  8. Huang, E. et al. Classifying local disease recurrences after breast conservation therapy based on location and histology: new primary tumors have more favorable outcomes than true local disease recurrences.癌症 95, 2059–2067.https://doi.org/10.1002/cncr.10952(2002)。

    文章一个 PubMed一个 数学一个 Google Scholar一个 

  9. Panet-Raymond, V. et al. True recurrence versus new primary: an analysis of ipsilateral breast tumor recurrences after breast-conserving therapy.int。J. Radiat。Oncol。生物。物理。 81, 409–417.https://doi.org/10.1016/j.ijrobp.2010.05.063(2011)。

    文章一个 PubMed一个 数学一个 Google Scholar一个 

  10. Yates, L. R. et al. Genomic evolution of breast cancer metastasis and relapse.癌细胞 32, 169–184.e167 (2017).

    文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个 

  11. Nakagomi, H. et al. PIK3CA-AKT pathway predominantly acts in developing ipsilateral breast tumor recurrence long after breast-conserving surgery.乳腺癌res。对待。 193, 349–359.https://doi.org/10.1007/s10549-022-06570-y(2022)。

    文章一个 PubMed一个 Google Scholar一个 

  12. Sakai, T. et al. Four types of ipsilateral breast tumor recurrence (IBTR) after breast-conserving surgery: classification of IBTR based on precise pathological examination.Pathol。int。 65, 113–118.https://doi.org/10.1111/pin.12253(2015)。

    文章一个 PubMed一个 数学一个 Google Scholar一个 

  13. Lou, S. J. et al. Machine learning algorithms to predict recurrence within 10 years after breast cancer surgery: a prospective cohort study.癌症(巴塞尔) 12https://doi.org/10.3390/cancers12123817(2020)。

  14. Azeroual, S., Ben-Bouazza, F. E., Naqi, A. & Sebihi, R. Predicting disease recurrence in breast cancer patients using machine learning models with clinical and radiomic characteristics: a retrospective study.J. Egypt.纳特。癌症研究所。 36,20。https://doi.org/10.1186/s43046-024-00222-6(2024)。

    文章一个 数学一个 Google Scholar一个 

  15. El Haji, H. et al. Evolution of breast cancer recurrence risk prediction: a systematic review of statistical and machine learning-based models.JCO Clin。癌症 7, e2300049.https://doi.org/10.1200/CCI.23.00049(2023)。

    文章一个 数学一个 Google Scholar一个 

  16. Zuo, D. et al. Machine learning-based models for the prediction of breast cancer recurrence risk.BMC Med。inf。决策。制作 23, 276.https://doi.org/10.1186/s12911-023-02377-z(2023)。

    文章一个 数学一个 Google Scholar一个 

  17. Massafra, R. et al. A machine learning ensemble approach for 5- and 10-year breast cancer invasive disease event classification.PLOS一个17, e0274691.https://doi.org/10.1371/journal.pone.0274691(2022)。

    文章一个 PubMed一个 PubMed Central一个 Google Scholar一个 

  18. Boeri, C. et al. Machine learning techniques in breast cancer prognosis prediction: a primary evaluation.癌症医学。 9, 3234–3243.https://doi.org/10.1002/cam4.2811(2020)。

    文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个 

  19. Comes, M. C. et al. Early prediction of breast cancer recurrence for patients treated with neoadjuvant chemotherapy: a transfer learning approach on DCE-MRIs.癌症(巴塞尔) 13https://doi.org/10.3390/cancers13102298(2021)。

  20. Gu, D., Su, K. & Zhao, H. A case-based ensemble learning system for explainable breast cancer recurrence prediction.艺术品。Intell。医学 107, 101858.https://doi.org/10.1016/j.artmed.2020.101858(2020)。

    文章一个 PubMed一个 数学一个 Google Scholar一个 

  21. Belkacemi, Y., Hanna, N. E., Besnard, C., Majdoul, S. & Gligorov, J. Local and regional breast cancer recurrences: salvage therapy options in the new era of molecular subtypes.正面。Oncol。 8, 112.https://doi.org/10.3389/fonc.2018.00112(2018)。

    文章一个 PubMed一个 PubMed Central一个 Google Scholar一个 

  22. Christiansen, P., Al-Suliman, N., Bjerre, K. & Moller, S. Recurrence pattern and prognosis in low-risk breast cancer patients—data from the DBCG 89-A programme.Acta Oncol。 47, 691–703.https://doi.org/10.1080/02841860802056594(2008)。

    文章一个 PubMed一个 Google Scholar一个 

  23. Pedersen, R. N. et al. The incidence of breast cancer recurrence 10–32 years after primary diagnosis.J. Natl。癌症研究所。 114, 391–399.https://doi.org/10.1093/jnci/djab202(2022)。

    文章一个 PubMed一个 数学一个 Google Scholar一个 

  24. Zhou, X. & Li, Y. Local recurrence after breast-conserving surgery and mastectomy following neoadjuvant chemotherapy for locally advanced breast cancer—a meta-analysis.Breast Care (Basel) 11, 345–351.https://doi.org/10.1159/000450626(2016)。

    文章一个 PubMed一个 数学一个 Google Scholar一个 

  25. Kaidar-Person, O. et al. Spatial location of local recurrences after mastectomy: a systematic review.乳腺癌res。对待。 183, 263–273.https://doi.org/10.1007/s10549-020-05774-4(2020)。

    文章一个 PubMed一个 Google Scholar一个 

  26. Cho, J., Park, Y., Lee, J. C., Jung, W. J. & Lee, S. Case series of different onset of skin metastasis according to the breast cancer subtypes.癌症。对待。 46, 194–199.https://doi.org/10.4143/crt.2014.46.2.194(2014)。

    文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个 

  27. Naumov, G. N., Akslen, L. A. & Folkman, J. Role of angiogenesis in human tumor dormancy: animal models of the angiogenic switch.细胞周期5, 1779–1787.https://doi.org/10.4161/cc.5.16.3018(2006)。

    文章一个 PubMed一个 Google Scholar一个 

  28. Antonio, N. et al. The wound inflammatory response exacerbates growth of pre-neoplastic cells and progression to cancer.Embo J. 34, 2219–2236.https://doi.org/10.15252/embj.201490147(2015)。

    文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个 

  29. Reid, S. E., Scanlon, E. F., Kaufman, M. W. & Murthy, M. S. Role of cytokines and growth factors in promoting the local recurrence of breast cancer.br。J. Surg。 83, 313–320.https://doi.org/10.1002/bjs.1800830308(1996)。

    文章一个 PubMed一个 数学一个 Google Scholar一个 

  30. Chand, A. R., Ziauddin, M. F. & Tang, S. C. Can locoregionally recurrent breast cancer be cured?临床乳腺癌。17, 326–335.https://doi.org/10.1016/j.clbc.2017.02.007(2017)。文章

    一个 PubMed一个 Google Scholar一个 Ahmad, J. et al. Deep learning empowered breast cancer diagnosis: advancements in detection and classification.PLOS一个

  31. 19, e0304757. https://doi.org/10.1371/journal.pone.0304757(2024)。文章一个 

    PubMed一个 PubMed Central一个 Google Scholar一个 Syleouni, M. E. et al. Predicting second breast cancer among women with primary breast cancer using machine learning algorithms, a population-based observational study.int。

  32. J.癌症153 , 932–941.https://doi.org/10.1002/ijc.34568(2023)。文章

    一个 PubMed一个 数学一个 Google Scholar一个 Gonzalez-Castro, L. et al. Machine learning algorithms to predict breast cancer recurrence using structured and unstructured sources from electronic health records.癌症(巴塞尔)

  33. 15。https://doi.org/10.3390/cancers15102741 (2023)。Zhou, D. et al. The prognostic significance of skin involvement in breast cancer patients with chest wall recurrence.安。医学

  34. 55。https://doi.org/10.1080/07853890.2023.2232299 (2023)。Hanna, W. M. et al. Pathologic characteristics of breast cancer that predict for local recurrence after lumpectomy alone.Breast J.5, 105–111.

  35. https://doi.org/10.1046/j.1524-4741.1999.00133.x(1999)。 文章一个 PubMed一个 

    数学一个 Google Scholar一个 Pan, H. et al. 20-year risks of breast-cancer recurrence after stopping endocrine therapy at 5 years.N. Engl。J. Med。377

  36. , 1836–1846.https://doi.org/10.1056/NEJMoa1701830 (2017)。文章一个 PubMed

    一个 PubMed Central一个 数学一个 Google Scholar一个 Sopik, V., Lim, D., Sun, P. & Narod, S. A. Prognosis after local recurrence in patients with early-stage breast cancer treated without chemotherapy.Curr。Oncol。30

  37. , 3829–3844.https://doi.org/10.3390/curroncol30040290 (2023)。文章一个 PubMed

    一个 PubMed Central一个 Google Scholar一个 Okumura, Y. et al. Change in estrogen receptor, HER2, and Ki-67 status between primary breast cancer and ipsilateral breast cancer tumor recurrence.欧元。J. Surg。Oncol。

  38. 41, 548–552. https://doi.org/10.1016/j.ejso.2015.01.030(2015)。文章一个 

    PubMed一个 数学一个 Google Scholar一个 Park,J。等。Analysis of PIK3CA mutation concordance and frequency in primary and different distant metastatic sites in breast cancer.

  39. 癌症。对待。55, 145–154.https://doi.org/10.4143/crt.2022.001(2023)。

  40. Rosin, J., Svegrup, E., Valachis, A. & Zerdes, I. Discordance of PIK3CA mutational status between primary and metastatic breast cancer: a systematic review and meta-analysis.乳腺癌res。对待。201, 161–169.https://doi.org/10.1007/s10549-023-07010-1(2023)。

  41. Dupont Jensen, J. et al. PIK3CA mutations may be discordant between primary and corresponding metastatic disease in breast cancer.临床癌症。17, 667–677.https://doi.org/10.1158/1078-0432.CCR-10-1133(2011)。

  42. Lim, G. H. Patterns of breast cancer second recurrences in patients after mastectomy.乳腺癌res。对待。196, 583–589.https://doi.org/10.1007/s10549-022-06772-4(2022)。

  43. Geurts, Y. M. et al. Patterns and predictors of first and subsequent recurrence in women with early breast cancer.乳腺癌res。对待。165, 709–720.https://doi.org/10.1007/s10549-017-4340-3(2017)。

  44. Goldhirsch, A. et al. Personalizing the treatment of women with early breast cancer: highlights of the St Gallen International Expert Consensus on the primary therapy of early breast Cancer 2013.安。Oncol。 24, 2206–2223.https://doi.org/10.1093/annonc/mdt303(2013)。

    文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个 

  45. Lundberg, S. M. et al.从本地解释到全球理解,以及可解释的树木的AI。纳特。马赫。Intell。 2, 56–67.https://doi.org/10.1038/s42256-019-0138-9(2020)。

    文章一个 PubMed一个 PubMed Central一个 数学一个 Google Scholar一个 

  46. Gupta, S. R. Prediction time of breast cancer tumor recurrence using machine learning.癌症治疗。res。社区。 32https://doi.org/10.1016/j.ctarc.2022.100602(2022)。

  47. Massafra, R. et al. A clinical decision support system for predicting invasive breast cancer recurrence: preliminary results.正面。Oncol。 11, 576007.https://doi.org/10.3389/fonc.2021.576007(2021)。

    文章一个 PubMed一个 PubMed Central一个 Google Scholar一个 

下载参考

资金

Open access funding provided by Semmelweis University. CK was supported by the European Union project RRF-2.3.1-21-2022-00004 within the framework of the Artificial Intelligence National Laboratory, Hungary.

作者信息

作者注意

  1. Kristóf Attila Kovács and Csaba Kerepesi contributed equally.

作者和隶属关系

  1. Department of Pathology, Forensic and Insurance Medicine, Semmelweis University, Budapest, Hungary

    Kristóf Attila Kovács, Lilla Madaras, Anikó Takács, Janina Kulka & Anna Mária Tőkés

  2. HUN-REN Institute for Computer Science and Control (SZTAKI), Budapest, Hungary

    csaba kerepesi

  3. National Institute of Oncology, Budapest, Hungary

    Dalma Rapcsák

  4. Department of Pathology and Experimental Cancer Research, Semmelweis University, Budapest, Hungary

    Ákos Nagy

  5. Department of Internal Medicine and Oncology, Semmelweis University, Budapest, Hungary

    Magdolna Dank, Gyöngyvér Szentmártoni & Attila Marcell Szász

贡献

We state that all authors have contributed significantly, and all authors are in agreement with the content of the manuscript. Conceptualization: TAM. KKA, KC. Data curation: RD, TA, KKA, SzAM, TAM. Methodology: KC, TAM, KKA, NA. Software: KC, TAM. Supervision: KJ, ML, DM, SG. Visualization: KC, TAM. Writing-review and editing: TAM, KC, ML, SzAM, KJ, KKA.

相应的作者

对应Anna Mária TÅ‘kés

道德声明

竞争利益

作者没有宣称没有竞争利益。

机构审查委员会声明

Human tissue samples and data were involved and applied with the following approvals of the Hungarian Medical Research Council (No. ETT-TUKEB 14383/2017 and 17781-3/2024).

知情同意陈述

Due to the retrospective nature of the study, the need of informed consent was waived by the Hungarian Medical Research Council (No. ETT-TUKEB 14383/2017 and 17781-3/2024).

附加信息

出版商的注释

关于已发表的地图和机构隶属关系中的管辖权主张,Springer自然仍然是中立的。

电子补充材料

以下是电子补充材料的链接。

引用本文

Check for updates. Verify currency and authenticity via CrossMark

Kovács, K.A., Kerepesi, C., Rapcsák, D.

等。Machine learning prediction of breast cancer local recurrence localization, and distant metastasis after local recurrences.Sci代表15 , 4868 (2025). https://doi.org/10.1038/s41598-025-89339-9下载引文

已收到

  • 2024年4月5日

  • 2025年2月4日

  • 2025年2月10日

  • https://doi.org/10.1038/s41598-025-89339-9关键字

Keywords

关于《乳腺癌的机器学习预测局部复发的定位和局部复发后远处转移》的评论


暂无评论

发表评论

摘要

提供的文本似乎是学术论文的结论和致谢部分,其后是与乳腺癌复发和转移的机器学习预测研究有关的关键字列表。这是关键点和其他详细信息的摘要:###本文的关键贡献:1。**作者的角色**:-KristófAttilaKovács和Csaba Kerepesi同样贡献。-AnnaMáriaTőkés是对应作者。2。**资金**: - 这项研究得到了欧盟项目RRF-2.3.1-21-2022-00004在匈牙利人工智能国家实验室的框架内。3。**机构隶属关系**: - 来自匈牙利布达佩斯的塞梅尔威大学和匈奴计算机科学与控制学院(Sztaki)的系。###道德考虑:1。**竞争利益**: - 作者没有宣称没有竞争利益。2。**机构审查委员会声明**: - 从匈牙利医学研究委员会(ETT-TUKEB 14383/2017和17781-3/2024)获得了人类组织样品和数据的批准。3。**知情同意陈述**: - 由于研究的回顾性质,匈牙利医学研究委员会放弃了知情同意。###方法论摘要: - 概念化:AnnaMáriaTőkés(Tam),KristófAttilaKovács(KKA)和Csaba Kerepesi(KC)。 - 数据策划:Magdolna Dank,ÁkosNagy,GyöngyvérSzentmártoni,AttilaMarcellSzász(Szam),Lilla Madaras(ML),DalmaRapcsák(Dr) - 方法:CSABA KEREPESI(KC)和KristófAttilaKovács(KKA)。 - 软件开发:CSABA KEREPESI(KC)和AnnaMáriaTőkés(TAM)。 - 监督:Janina Kulka(JK),Lilla Madaras(ML),DalmaRapcsák(Dr),GyöngyvérSzentmártoni,Attila MarcellSzász(Szam)。###关键字:关键字提出了本文的主要主题:1。乳腺癌2。机器学习3。本地复发定位4。遥远的转移预测这项研究旨在使用机器学习技术来预测乳腺癌的复发和转移,这可以显着增强患者的管理和治疗策略。###出版信息: - **期刊**:科学报告(SCI REP) - **音量/问题**:卷15 - **文章编号**:文章编号:S41598-025-89339-9 - ** doi **:https://doi.org/10.1038/s41598-025-8939-9### 执照:该文章是根据Creative Commons归因4.0国际许可证获得许可的,只要给予原始作者提供适当的信用,就可以使用和分发。如果您需要本文的更多详细信息或特定部分(例如方法或结果),请告诉我!