英语轻松读发新版了,欢迎下载、更新

构建基于机器学习的中期流产风险预测模型

2024-11-09 14:32:23 英文原文

作者:Fu, Xianhu

BMC 怀孕和分娩 体积24,商品编号: 第738章(2024年引用这篇文章

抽象的

背景

妊娠中期流产是一种常见的不良妊娠结局,给患者及其家人的身心健康带来巨大的经济和心理压力。目前,关于妊娠中期流产风险预测模型的研究很少。

方法

回顾性收集妊娠中期(妊娠14+0周至27+6周)、主要诊断为“先兆流产”且在妇女儿童医院住院的患者的临床资料。2020年1月至2023年10月在宁波大学附属医院进行的研究。经过初步数据处理后,患者队列被随机分为训练队列和验证队列,比例分别为70%和30%。使用 Boruta 算法和多因素分析来细化特征因素并确定与妊娠中期流产相关的最佳特征。通过应用 SMOTE 过采样方法纠正训练队列中不平衡的数据集。构建了七个机器学习模型并进行了全面分析,以验证和评估其预测能力。通过严格的评估,选择了最佳模型。生成沙普利附加解释 (SHAP) 以提供对模型预测的深入了解,并构建预测模型的可视化表示。

结果

该研究共纳入 2006 名患者;其中 395 人(19.69%)曾经历过孕中期流产。在使用准确度、精确度、召回率、F1 分数、精确度-召回率平均精确度、接收者操作特征曲线下面积、决策曲线分析和校准曲线。最显着的特征是宫颈长度,并使用基于相关性排名的SHAP技术找到了妊娠中期流产的前十个特征。

结论

基于上述机器学习的视觉风险预测模型可以准确预测中期妊娠流产的风险。

同行评审报告

介绍

妊娠中期流产(STM)是一种常见的不良妊娠结局。大约 11-20% 的临床妊娠发生流产,其中 STM 占所有流产的 2-3% [1,2]。由于流产发生率较低,因此在临床实践中流产的价值被低估。然而,随着妊娠时间的延长,STM对患者身心健康的影响变得更加明显。值得注意的是,某些早期临床症状和妊娠并发症可以预测不良的临床妊娠结局。3,4]。当前的医疗技术和研究在使用机器学习(ML)模型预测流产方面取得了一些进展。大多数相关研究都集中在早期流产上[5]和早产[6],对中间流产的研究很少。STM 的风险因素尚不完全清楚,必须开发新的预测模型和方法来检测 STM。

临床风险预测模型在许多医学领域普遍存在,机器学习算法作为预测和分类问题的替代方法越来越受欢迎。7,8]。由于针对STM的ML预测模型的研究很少,本研究旨在建立一个可用于预测STM风险的视觉ML预测模型。

方法

整体工作流程如图所示 1

图1
figure 1

预测模型流程图

参加者

招募了 2020 年 1 月至 2023 年 10 月期间入住宁波大学妇女儿童医院且初步诊断为“先兆流产”的患者。

先兆流产的定义如下:最初出现阴道出血或点滴出血迹象,随后出现腹痛或腰痛。子宫大小与胎龄相符,子宫颈保持闭合,胎膜未破裂,没有胎儿组织通过。如果症状持续或恶化,先兆流产可能会升级为完全流产。

不可避免的流产的定义是:如果宫颈口扩张,有组织堵塞或有水流出,或可见羊膜囊,则流产是不可避免的。9]。

纳入标准

妊娠 14+0 至 27+6 周且主要诊断符合“先兆流产”的患者。

排除标准

(1)入院时被诊断为“难免流产”的患者。(2)患有全身性疾病,包括多种恶性肿瘤、精神疾病、凝血问题、严重心血管和肝脏疾病、血液系统疾病、严重外科疾病等。(3)明确胚胎或胎儿染色体异常的患者。(4)自行出院或转上级医院治疗且妊娠结局不明确的患者。

此外,为了避免多次住院造成的偏差,仅记录同一患者最近的住院信息。本研究经宁波大学妇女儿童医院伦理审查委员会批准。鉴于该研究的回顾性,不需要参与者的知情同意。

预测变量和结果变量

我们通过收集和总结当前文献以及临床经验,确定了本次调查的预测变量。数据包括产妇年龄、孕周、产次、产妇史、孕前体重指数(BMI)、辅助妊娠和多胎妊娠。患者的主诉是腹痛、阴道流血和阴道分泌物。入院当天进行了以下实验室检查:白细胞(WBC)计数、中性粒细胞百分比、C反应蛋白(CRP)水平以及妊娠期间是否存在阴道炎。B 扫描超声检查显示存在绒毛膜下血肿和宫颈长度。妊娠并发症包括是否存在子宫异常、羊水量异常、糖尿病、高血压、贫血、血栓形成倾向、甲状腺疾病、疤痕子宫和子宫肌瘤。既往史包括早产史、中期妊娠流产史、宫内手术次数以及宫颈手术后是否存在宫颈肿瘤。

结果变量是妊娠结局是否进展为自然流产。

样本量计算

据文献[10],门诊 STM 患病率为\(p\约25\)%,容许误差为\(\delta \约0.01\)P,样本量计算表明需要1153名患者。鉴于大约 10% 的患者退出并失访,至少有 1281 名患者必须连续招募到训练队列中 [11]。统计分析

R(版本 4.3.1)-VIM-包用于计算所检查案例中每个因素的缺失值。

通过使用 R 中的“zoo”包来填充缺失的数据,R“caret”包中的 createDataPartition 函数将所有数据随机分为两组:训练队列和验证队列(7:3)。使用SPSS 26.0软件对训练组和验证组进行比较;卡方检验用于分类变量,结果以四分位数报告;Mann-Whitney U 检验用于描述组间非正态计数数据,结果以频率(百分比)形式报告。

特征选择

为了避免因子共线性,使用“corrplot”包对研究中包含的特征进行了共线性测试。通过“Boruta”包将“Boruta 算法”应用于建模组以获得初步筛选变量。然后使用SPSS 26.0对过滤后的变量进行多因素分析,具有统计学差异的变量为磷<0.05被选为最终的最优变量。利用“UBL”包中的 SmoteClassif 函数为建模组创建新的少数样本,以解决类别不平衡的问题。

然后将新生成的数据与建模组的原始数据相结合,重新生成建模组数据[12]。所有分析均使用 R 软件和 SPSS 进行。

模型构建和模型评估

本研究的模型是使用七种不同的机器学习技术构建的:逻辑回归 (LR)、K 最近邻 (KNN)、支持向量机 (SVM)、决策树 (DT)、随机森林 (RF)、极端梯度Boosting (XGBoost) 和人工神经网络 (ANN)。对模型超参数进行优化调整,并根据准确率、精确率、召回率、F1 分数、受试者工作特征 (ROC)-AUC、精确率-召回率曲线下面积 (PR-AP)、决策来评估模型性能曲线分析(DCA)和校准曲线。

前瞻性验证

2024年1月至2024年3月,在宁波大学妇女儿童医院对妊娠中期诊断为先兆流产且符合纳入标准的患者进行妊娠结局预测研究。预测结果表示为准确度、精确度、召回率、F1 分数、ROC-AUC 和 PR-AP。

SHAP模型解释

使用 R 软件中的“shapviz”包,我们采用 XGBoost 来解释特征对整个模型的重要性和贡献的 Shapley 加性解释 (SHAP)。此外,我们还对各个样本进行了 SHAP 演示并创建了简单的应用软件。

结果

患者特征

2020年1月至2023年10月期间,宁波大学妇女儿童医院共收治妊娠14+0周至27+6周的“先兆流产”患者2172例。应用排除标准后,我们​​排除了166名患者,其中精神障碍患者2名,反复住院患者153名,因特定原因自动出院的11名患者。最终,我们的研究总共纳入了 2006 名患者;其中,自然流产395例(19.69%)。我们考虑了三十个潜在的预测变量进行分析,同时对所有纳入案例中每个因素内的缺失值进行统计解释。宫颈长度(4.99%)、CRP(3.54%)、羊水量异常(1.94%)、孕前BMI(0.25%)、WBC(0.15%)、中性粒细胞百分比(0.15%)缺失数据占比小于个人数据的百分之五,如图所示 2。我们使用数值变量的平均值和分类变量的模式来填充缺失值[13]。图2

一个
figure 2

每个变量中缺失数据的百分比,红色方块代表缺失值 STM:中期妊娠流产 HPB:早产史 STMH:中期妊娠流产史 NIP:宫内手术次数 SCH:绒毛膜下血肿 WBC:白细胞计数 NEU%:中性粒细胞百分比 CRP:C反应蛋白 BMI:体重指数 VP:妊娠期阴道炎 AP:辅助妊娠 MP:多胎妊娠 PA:胎盘异常 AAV:羊水量异常 UA:子宫异常 NC:宫颈肿瘤 ACS:宫颈手术后

这项研究检查了 30 个可能导致 STM 的风险变量。为了避免众多特征之间的共线性,创建了相关热图来预测 STM 的风险特征。相关性热图是一种可视化工具,它以热图的形式显示特征之间的相关系数,并使用颜色明暗来表示特征之间的相关程度[14]。图 3对纳入研究中的风险特征进行相关性分析,Spearman相关系数小于0.6,显示纳入特征之间的相关性较低。

图3
figure 3

STM:中期流产 HPB:早产史 STMH:中期流产史 NIP:宫内手术次数 SCH:绒毛膜下血肿 WBC:白细胞计数 NEU%:中性粒细胞百分比 CRP:C 反应蛋白 BMI:体重索引 VP:妊娠期间阴道炎 AP:辅助妊娠 MP:多胎妊娠 PA:胎盘异常 AAV:羊水量异常 UA:子宫异常 NC:宫颈肿瘤 ACS:宫颈手术后

数据预处理后,所有数据按 7:3 的比例随机分为训练队列(1405 名患者)和验证队列(601 名患者),训练队列和验证队列之间没有显着差异(>0.05)。(附加文件1:表S1)

特征选择

Boruta 是一种基于随机森林分类器的特征选择算法。该方法迭代地将每个变量的重要性与随机阴影属性进行比较,以识别重要的相关变量[15]。在我们的研究中,Boruta 进行了 500 次迭代,选择结果总结在图 1 中。 4。具有绿色箱线图的变量表明所有预测变量都很重要。如果箱线图呈红色,则表明它们被拒绝。箱线图的黄色表示它们是暂时的。以下特征与 STM 风险相关:产妇年龄、腹痛、阴道出血、阴道分泌物、宫颈长度、宫内手术次数、绒毛膜下血肿、子宫肌瘤、白细胞、中性粒细胞百分比、CRP、贫血和胎盘异常。图 1 给出了 13 个特征的多变量分析。 5。具有统计显着性差异的特征<0.05被选为最终特征。得出的10个理想特征如下:腹痛、阴道出血、白带、宫颈长度、绒毛膜下血肿、子宫肌瘤、白细胞、中性粒细胞百分比、C反应蛋白和胎盘异常。根据统计结果,STM的风险为19.69%,明显低于不发生流产的概率——这是数据样本不平衡的标志。训练后分类器偏向于大量样本,如果不解决样本不平衡问题,就会损害分类结果。从数据的角度来看,随机采样技术是解决数据不平衡问题的一种方法,大致可以分为两种类型:欠采样和过采样。过采样是一种经常使用的技术,可以有效防止过拟合。本研究利用SMOTE过采样技术生成少数样本,保证孕中期阳性样本与阴性样本的比例为1:1,数据结构平衡。16],生成后 SMOTE 数据集(附加文件 2:表 S2)。

图4
figure 4

具有绿色箱线图的变量表明所有预测变量都很重要。如果箱线图呈红色,则表明它们被拒绝。箱线图的黄色表示它们是暂时的。STM:中期流产 HPB:早产史 STMH:中期流产史 NIP:宫内手术次数 SCH:绒毛膜下血肿 WBC:白细胞计数 NEU%:中性粒细胞百分比 CRP:C 反应蛋白 BMI:体重索引 VP:妊娠期间阴道炎 AP:辅助妊娠 MP:多胎妊娠 PA:胎盘异常 AAV:羊水量异常 UA:子宫异常 NC:宫颈肿瘤 ACS:宫颈手术后

图5
figure 5

白细胞;CRP:C反应蛋白<月经量:小于月经量>月经量:大于月经量

模型构建与评估

在本研究中,使用了七种不同的 ML 技术来建立模型:LR、KNN、SVM、DT、RF、XGBoost 和 ANN。图 1 显示了训练队列和验证队列的七个模型在 ROC-AUC 和 PR-AP 方面的表现。 6。准确率、精确率、召回率和 F1 分数比较见表 1,并利用如图所示的雷达图对各个模型的性能数据进行了多个维度的比较。 7提高结果的清晰度和视觉吸引力。在七个模型中,三个模型均表现出较高的预测性能:LR模型(AUC = 0.843)、SVM(AUC = 0.835)和XGBoost(AUC = 0.833)。AUC 大于 0.8 表明预测性能良好。KNN (AUC = 0.751)、DT (AUC = 0.721)、RF (AUC = 0.796) 和 ANN (AUC = 0.771) 模型的预测能力中等。RF模型的精度最高,值为0.653,其次是XGBoost(精度为0.529)。然而,XGBoost 的 PR 和准确率最高,分别为 0.650 和 0.817。当使用临床决策曲线分析(DCA)评估预测模型的临床有效性时,XGBoost模型在特定范围内比其他模型获得了更大的净效益(图1)。 8),表明XGBoost模型具有良好的临床实用性。Brier Score 是用于评估概率预测准确性的指标,Brierscore 越低,模型的预测越准确。校准曲线分析表明,XGBoost 模型优于其他模型,拥有最低的 Brier 分数(验证组中为 0.132)。上述研究结果明确表明 XGBoost 模型是最佳模型。

图6
figure 6

接收器操作特征曲线和精确回忆曲线。一个-训练队列和验证队列中的接受者操作特征曲线。c-d训练队列和验证队列中的精确回忆曲线。LR:逻辑回归、KNN:K 最近邻、SVM:支持向量机 DT:决策树 RF:随机森林、XGBoost:极限梯度提升 ANN:人工神经网络表 1 训练和验证队列中预测模型的性能指标图7

用于机器学习模型比较性能分析的雷达图。
LR:逻辑回归、KNN:K 最近邻、SVM:支持向量机 DT:决策树 RF:随机森林、XGBoost:极端梯度提升 ANN:人工神经网络 ROC-AUC:精确回忆曲线下面积 PR-AP
figure 7

:精确率-召回率平均精确率

图8
figure 8

决策曲线分析和校准图。一个-训练队列和验证队列的决策曲线分析c-d训练队列和验证队列中的校准图 LR:逻辑回归、KNN:K 最近邻、SVM:支持向量机 DT:决策树 RF:随机森林、XGBoost:极端梯度提升 ANN:人工神经网络前瞻性验证

对预测模型进行临床评估,前瞻性收集宁波大学妇女儿童医院2024年1月至3月符合纳入和排除标准的120例患者的数据。

其中,15.0% (18/120) 有 STM。该模型的准确率为0.858,精度为0.519,召回率为0.778,F1得分为0.622,ROC-AUC为0.883,PR-AP为0.702,如表所示 2。表2 XGBoost的前瞻性验证SHAP模型解读

SHAP分数的解释如下。

对于 SHA 值(图 1) 

9a),每行表示在所有情况下分配给特征的 SHAP 值的分布。x 轴表示 SHAP 值,它指示特征对模型预测的贡献的大小和方向。SHAP 值的绝对值反映了特征对模型预测的影响强度。较大的正值表明该特征显着提高了预测,而较大的负值表明该特征导致预测大幅下降。例如,对于宫颈长度,当宫颈长度较短时,患者的 SHAP 值为正值;当宫颈长度较短时,患者的 SHAP 值为负值。在我们的预测模型的 SHAP 解释中,宫颈长度越短,STM 的风险就越大。每个特征的权重由每个特征的SHAP值的平均绝对值乘以带的长度确定。重要性矩阵图(图 1) 9b) 将有助于 STM 风险预测的变量从最重要到最不重要进行排名,因为宫颈长度、CRP、中性粒细胞百分比、阴道出血和阴道分泌物成为预测能力最有影响力的五个变量。我们还使用 SHAP 依赖图来评估特征的非线性影响(图 1) 9c).SHAP 分析揭示了每个输入特征如何影响模型的输出,为预测提供了潜在的解释。左侧显示增加 STM 可能性的黄色特征,表示正值。另一方面,降低 STM 可能性的品质在右侧以紫色突出显示,导致负分。每个性状的带长表示每个患者输入特征的值,箭头越长,该特征对输出的影响越大。此外,使用 XGBoost 模型确定了两个典型样品的 SHAP 值。根据图。 9d,孕妇没有报告任何阴道流血,但宫颈长度小于20毫米,中性粒细胞百分比高达82.8%,白细胞计数为13.8\(\次\ 10^{9}/L\),CRP 水平为 2.27 mg/L。其中,宫颈管长度、WBC计数和中性粒细胞百分比对STM的预测有正向贡献,贡献值分别为1.54、0.312和1.62。相比之下,没有阴道出血、CRP和其余五个因素产生负面影响,其贡献值分别为-0.504、-0.204和-0.164。由于总的正贡献(黄色条纹)大于负贡献(紫色条纹),因此最终值大于基值。图中的点代表模型的基线值(期望值)为-0.0146,模型的总输出值f(x) = 2.58,表明患者处于STM的高风险,这就是 SHAP 的工作原理。另一位孕妇(如图所示) 9e)、测量宫颈长度超过30mm,CRP水平为12mg/L,WBC计数为8\(\次\ 10^{9}/L\)中性粒细胞百分比为66%,SCH大于10mm,其他5个因素的总值影响较小。具体来说,宫颈管长度、中性粒细胞百分比和WBC计数分别具有负贡献-0.91、-0.953和-1.34,而SCH和CRP具有正贡献0.438和0.661。图中描绘的点表示模型的基线值为 -0.0146。模型的累积输出由 f(x) = -2.07 表示,表明患者发生 STM 的风险较低。

图9
figure 9

一个沙普利的加法解释。特征的正 SHAP 值和负 SHAP 值分别表示该特征增加或减少预测值的程度。SHAP 特征重要性矩阵。每个条代表一个特征对特定预测的贡献。cSHAP 依赖图显示预测风险与特征值的关系。它可以揭示特征与预测之间的关系,以及不同特征值区间对预测的影响。d,eSHAP 模型用于两种典型的预测: SCH:绒毛膜下血肿;WBC:白细胞计数;NEU%:中性粒细胞百分比;CRP:C反应蛋白<MF:小于月经量>MF:大于月经量;PA:胎盘异常;AD:胎盘发育异常;PP:前置胎盘

此外,还为临床医生构建了一个基于网络的工具来使用所提出的模型(可在https://qisangsang.shinyapps.io/STMRISK/)(图。 10)。

图10
figure 10

基于网络的中期妊娠流产风险评估工具

讨论

不同国家根据医疗水平和抢救新生儿的能力对孕中期有不同的定义。17 号,18]。目前我国将14+0周至27+6周终止妊娠定义为孕中期流产。19]。多项研究探讨了 STM 的危险因素并构建了妊娠风险指标。伊森利克等人。[20]。进行了一项前瞻性队列研究,发现产科特征(妊娠次数、活儿数、流产、刮宫术、入院孕龄、胎儿头臀长)和实验室数据(全血细胞计数、红细胞压积、白细胞、中性粒细胞、淋巴细胞和血小板计数;中性粒细胞-淋巴细胞和血小板-淋巴细胞比率;以及血清AA值)可用作生物标志物。张,K W,等人。[21】对2012年至2021年的临床数据进行回顾性分析,发现胎儿畸形、疑似宫颈机能不全、糖尿病、不明原因流产等都是STM的危险因素。凯利·M·麦克纳米等人。[22] 提出,经历 STM 的女性是一个多元化的群体,其 STM 的病因多种多样,并且双重甚至三重病理的存在大大增加了随后发生 STM 的可能性。在这项回顾性研究中,我们开发并验证了一个机器学习模型,用于预测 30 个变量的妊娠中期流产风险。XGBoost模型在预测性能方面优于其他测试的模型,表明该模型在预测不良妊娠结局方面具有较高的准确性和稳定性,这可以帮助医生及时识别流产风险,以便进一步预防和治疗。

与早期研究结果类似[23,24],子宫颈管的长度被发现是 STM 的危险因素,因为子宫颈长度短会导致子宫颈过早打开,从而无法容纳胎儿。研究显示,宫颈管长度在 20 毫米至 30 毫米之间的孕妇发生 STM 的风险是宫颈管长度的孕妇的 2.221 倍\(\ge 30\)毫米。身长小于20毫米的孕妇怀孕风险是身长大于20毫米的孕妇的14.538倍。\(\ge 30\)mm,证明利用超声技术测量早、中期宫颈管长度来预测流产的可行性。闭合宫颈管的长度与妊娠结局有密切关系;宫颈管的长度越短,STM 的风险就越大。常规血液检查是常见的临床检查,可以帮助监测孕妇身体的变化,并可能间接表明流产的风险。25]。全血中的炎症标志物,例如超敏 C 反应蛋白和绝对中性粒细胞,也被证明对妊娠中期流产有重要影响。较高的炎症临床标志物表明存在感染,这可能是 STM 导致流产的一个因素。26]。在对 7000 多例自然流产的胎盘组织学进行的回顾性研究中,发现 77% 的 STM 患者存在绒毛膜羊膜炎;该研究还表明,大多数感染,尤其是早期神秘感染,经常导致Stms [22,27]。患者的感染和炎症使病原体可以轻松进入Decidua和Chorion之间的区域,在那里他们可以释放毒素,产生不同的细胞因子,产生和释放前列腺素,在子宫中诱导收缩,并最终导致流产[28]。根据对4510名怀孕期间阴道出血或斑点的4510例孕妇的统计研究,当出血相似或超过重量大量出血时,流产的风险增加了三倍。29]。由胎盘血管破裂引起的胎盘螺旋动脉的重塑会增加血液流向延伸的胎盘,并显着增强氧气张力。胎盘和胎儿可能会暴露于危险的大量氧化应激,这可能会增加流产的风险。当患者报告怀孕期间的阴道时,有必要注意,因为怀孕期间的病理性阴道更加复杂,并且与母亲和胎儿的结局不佳有关[30]。这些疾病的例子包括细菌性阴道病,念珠菌病和毛滋病。膜和流产的过早破裂可能是由于怀孕期间的病理性阴道导致的,而对阴道卫生的忽视,这很容易导致继发性阴道炎症的发展,继发于肾上腺内感染和胎儿膜的耐药性下降[31]。胎盘故障是STM的常见原因。胎盘是在胚胎和母亲之间传播氧气和养分的关键器官。健康的胎盘对于维持怀孕也是必不可少的。胎盘发育不足会使胎儿更难获得足够的氧气和营养来维持其生长,从而增加了流产的风险[32]。患有胎盘预胎的患者,尤其是胎盘覆盖宫内孔口的患者,收缩性较差。该位置的胎盘很容易在收缩期间剥离,这可能导致严重的产前出血和胎儿窘迫,长时间出血,易于可见的生殖道感染,引起炎症,并导致腹腔内感染,可能导致错误造成危害。为了降低流产和保护母亲和未出生的孩子的健康的机会,应密切监测和治疗胎盘异常风险的孕妇。

这项研究不仅可以提高我们对STM的理解,而且还创建了一个可以预见STM的视觉预测模型和Web服务器。该工具以易用性为基于网络的计算器,通过分析有关孕妇一般状况的输入数据来估算STM的可能性。可以通过任何Web浏览器访问,可以将计算器在计算机或移动电话上添加书签以进行快速参考。但是,我们为补充而不是取代临床决策过程而建立的模型。需要克服某些障碍,例如需要医疗保健专业人员接受必要的培训,我们知道潜在的挑战,例如技术接受,数据隐私和该模型对不同人群的适用性。

这项研究有几个局限性。首先,回顾性收集数据,一些数据是不完整或缺少的(例如,颈长度,CRP,中性粒细胞百分比)代表了潜在的偏差。其次,它是在单个机构进行的,需要使用多中心研究进行外部验证,以在我们的预测模型的性能中建立稳定性。第三,当前的研究结果表明,STM的原因是复杂的,每个变量的重要性可能会在整个建模人群中波动,并且各种研究人员可能会发现,不同的因素对STM的影响有所不同,这影响了预测性能的预测性能。模型。在未来的研究中,我们需要收集更多详细和多样化的数据,例如有关各种人口,地理和环境因素以及生活方式选择的信息,以更准确地估算STM的风险。其次,可以为某些人群量身定制模型。例如,可以根据各种族裔和妊娠周来构建不同的风险预测模型。此外,ML可以应用于对孕妇的实时状况的长期动态监测。未来的研究可以调查如何将实时监控技术与预测模型整合在一起,以实时提供个性化的健康干预措施。我们预计,增加的研究和创新将导致创建更精确和有用的风险预测模型,这将使​​公共卫生受益。

结论

这项工作不仅增加了我们对第二期流产风险的了解,而且还使我们能够创建一个具有良好性能和可解释性的视觉预测模型,以预测STM的风险。

数据可用性

当前研究期间没有生成或分析数据集。

缩写

STM:

二孕期流产

机器学习:

机器学习

LR:

逻辑回归

体重指数:

体重指数

WBC:

白细胞计数

综合反应蛋白:

C反应蛋白

KNN:

K-最近邻

SVM:

支持向量机

设备名称:

决策树

RF:

随机森林

XGBoost:

极端梯度提升

安:

人工神经网络

ROC-AUC:

Precision-Recall曲线下的区域

Pr-ap:

Precision-Recall平均精度

DCA:

决策曲线分析

Shap:

Shapley添加说明

参考

  1. NiinimâkiM,Mentula M,Jahangiri R,Mânnistã¶J,Haverinen A,Heikinheimo O.第二诊断胎儿流产的医疗治疗;回顾性分析。公共科学图书馆一号。2017; 12(7):E0182198。

    文章一个 考研一个 考研中心一个 谷歌学术一个 

  2. Bottomley C,Bourne T.诊断流产。妇产科临床最佳实践研究。2009; 23(4):463 - 77。

    文章一个 考研一个 谷歌学术一个 

  3. Saraswat L,Bhattacharya S,Maheshwari A,Bhattacharya S.孕产妇和围产期成果在第一个三个月受到威胁流产的妇女中:系统评价。Bjog Int J Obstet Gynaecol。2010; 117(3):245 57。

    文章一个 中科院一个 谷歌学术一个 

  4. Weiss JL,Malone FD,Vidaver J,Ball RH,Nyberg DA,Comstock CH等。威胁性堕胎:妊娠结局不良的危险因素,一项基于人群的筛查研究。Am J Obstet Gynecol。2004; 190(3):745 50。

    文章一个 考研一个 谷歌学术一个 

  5. Aljameel SS,Aljabri M,Aslam N,Alomari DM,Alyahya A,Alfaris S等。使用机器学习的早期预测流产的早期预测的自动化系统。CMC-Comput Mater Continua。2023; 75(1):1291 304。

    文章一个 谷歌学术一个 

  6. Zhang Y,Du S,Hu T,Xu S,Lu H,Xu C等。建立一个基于机器学习算法预测早产的模型。BMC 怀孕分娩。2023; 23(1):779。

    文章一个 考研一个 考研中心一个 谷歌学术一个 

  7. Christodoulou E,Ma J,Collins GS,Steyerberg EW,Verbakel JY,Van CalsterB。系统评价显示,机器学习对临床预测模型的逻辑回归没有任何绩效好处。J 临床流行病学杂志。2019; 110:12 22。

    文章一个 考研一个 谷歌学术一个 

  8. Jordan Mi,Mitchell TM。机器学习:趋势,观点和前景。科学。2015; 349(6245):255 60。

    文章一个 中科院一个 考研一个 谷歌学术一个 

  9. Rao VA。怀孕早期:流产。妇科紧急情况。2020; 23。

  10. Drakeley A,Quenby S,Farquharson R.筛查方案的孕期中期损失范围。嗡嗡声复制(OXF)。1998; 13(7):1975 80。

    文章一个 中科院一个 谷歌学术一个 

  11. Kotrlik J,Higgins C.组织研究:在调查研究中确定适当的样本量在调查研究中的适当样本量。Inf Technol Learn pershial J. 2001; 19(1):43。

    谷歌学术一个 

  12. LemaâŽtreG,Nogueira F,Aridas CK。不平衡的学习者:一种Python工具箱,可应对机器学习中不平衡数据集的诅咒。J 马赫学习研究。2017; 18(17):1â。

    谷歌学术一个 

  13. Emmanuel T,Maupong T,Mpoeleng D,Semong T,Mphago B,Tabona O.关于机器学习中缺少数据的调查。J大数据。2021; 8:1â37。

    文章一个 谷歌学术一个 

  14. Wu HM,Tien YJ,Ho MR,HWU HG,Lin WC,Tao MH等。通过相关分解可视化生物学数据的协变量调整热图。生物信息学。2018; 34(20):3529 38。

    文章一个 中科院一个 考研一个 谷歌学术一个 

  15. Kursa MB,Jankowski A,Rudnicki WR。用于特征选择的Boruta-A系统。Incutam Informaticae。2010; 101(4):271 85。

    文章一个 谷歌学术一个 

  16. Chawla NV,Bowyer KW,Hall LO,Kegelmeyer WP。SMOTE:合成少数民族过度采样技术。J Artif Intell Res。2002; 16:321 - 57。

    文章一个 谷歌学术一个 

  17. Blencowe H,Cousens S,Chou D,Oestergaard M,Say L,Moller AB等。出生太早:1500万早产的全球流行病学。生殖健康。2013; 10:1 14。

    文章一个 谷歌学术一个 

  18. Cullen S,Sobczyk K,Elebert R,Tarleton D,Casey B,Doyle S等。第二孕期流产:对产后研究和随后的妊娠结局的综述。IR J Med Sci(1971-)。2023; 192(4):1757 60。

    文章一个 中科院一个 谷歌学术一个 

  19. Gu X.中国专家在妊娠中期缺失流产的标准化诊断和治疗方面达成共识。CHIN J练习妇科遗产。2021; 37(9):928。

    谷歌学术一个 

  20. Isenlik BS,Sarica MC,Kaygun BC,Inal Ha。对孕妇的血清血液参数和淀粉样蛋白A水平的评估。Am J Reprod 免疫学杂志。2024; 91(3):E13829。

    文章一个 中科院一个 考研一个 谷歌学术一个 

  21. Cheung KW,Seto Mty,Wang W,Mok YK,Cheung VY。临床表现,研究,基本原因以及随后的妊娠中期流产的不同表型之间的妊娠结局。J Obstet Gynaecol Res。2023; 49(2):539 47。

    文章一个 考研一个 谷歌学术一个 

  22. McNamee KM,Dawood F,Farquharson RG。孕妇怀孕丧失。Obstet Gynecol Clin。2014; 41(1):87 102。

    文章一个 谷歌学术一个 

  23. Wikstrã¶mT,Hagberg H,Jacobsson B,Kuusela P,Wesstrã¶mJ,Lindgren P等。二孕期超声颈长度对不同风险群体自发早产风险的影响:一项前瞻性观察性多中心研究。Acta Obstet Gynecol Scand。2021; 100(9):1644年55。

    文章一个 考研一个 谷歌学术一个 

  24. Kuusela P,Jacobsson B,Hagberg H,Fadl H,Lindgren P,Wesstrã¶mJ等。宫颈长度的第二孕期经阴道超声测量以预测早产:一项盲目的前瞻性多中心诊断精度研究。Bjog Int J Obstet Gynaecol。2021; 2:195 206。

    文章一个 谷歌学术一个 

  25. BAS FY,TOLA EN,SAK S,CANKAYA BA。完全血液炎症标志物在自发流产的预测中的作用。Pak J 医学科学。2018; 34(6):1381。

    文章一个 考研一个 考研中心一个 谷歌学术一个 

  26. Yazdizadeh M,Hivehchi N,Ghaemi M,Azizi S,Saeedzarandi M,Afrooz N等。妊娠头三个月的淋巴细胞和嗜中性粒细胞与淋巴细胞比率,它们是否可用于预测自发流产?病例对照研究。int j reprod bioMed。2023; 21(6):463。

    中科院一个 考研一个 考研中心一个 谷歌学术一个 

  27. Quinn P,Butan J,Taylor J,Hannah W.绒毛膜炎:它与妊娠结局和微生物感染的关联。Am J Obstet Gynecol。1987; 156(2):379 - 87。

    文章一个 中科院一个 考研一个 谷歌学术一个 

  28. Ugwumadu A.绒毛膜膜炎和孕妇中期妊娠丧失。Gynecol Obstet调查。2010; 70(4):281 5。

    文章一个 谷歌学术一个 

  29. Hasan R,Baird DD,Herring AH,Olshan AF,Funk MLJ,Hartmann Ke。第一孕阴道出血与流产之间的关联。妇产科。2009; 114(4):860 - 7。

    文章一个 考研一个 考研中心一个 谷歌学术一个 

  30. Khaskheli M,Baloch S,Baloch AS,Shah SGS。怀孕期间的阴道以及相关的不良母体和围产期结局。Pak J 医学科学。2021; 37(5):1302。

    文章一个 考研一个 考研中心一个 谷歌学术一个 

  31. Wikstrã¶mT,Abrahamsson S,Bengtsson-Palme J,EK J,Kuusela P,Rekabdar E等。中间疗法时阴道流体中的微生物和人类转录组:与自发早产相关。临床翻译医学。2022; 12(9):E1023。

    文章一个 考研一个 考研中心一个 谷歌学术一个 

  32. Odendaal H,Wright C,Brink L,Schubert P,Geldenhuys E,Groenewald C.第二孕期失婚与胎盘组织学和尸检发现的关联。Eur J Obstet Gynecol Reprod Biol。2019; 243:32â5。

    文章一个 考研一个 考研中心一个 谷歌学术一个 

下载参考资料

致谢

不适用。

资金

这项研究得到了Ningbo Key Medical学科(第2022-B16号),Zhejiang健康科学技术计划(2022KY1155)和Ningbo Key Research and Development计划(2023Z183)的支持。

作者信息

作者和单位

  1. 宁波大学妇女和儿童医院的妇产科,宁博,宁博,315012,宁博

    Sangsang Qi,Shi Zheng,Mengdan Lu,Aner Chen,Yanbo Chen&xianhu fu

贡献

SQ:收集了数据,构思研究,进行了分析并起草了手稿。SZ和ML:收集数据XF:帮助修改手稿(包括研究概念和设计),获得了资金和道德认可,并监督了数据收集和实施AC和YC:监督数据收集和实施。所有作者均已阅读并批准该手稿。

通讯作者

通讯至徐富

道德声明

道德批准并同意参与

宁波大学妇女和儿童医院批准了这项研究。由于本研究的回顾性质,宁波大学妇女和儿童医院的机构审查委员会放弃了知情同意的需求。这项研究是根据赫尔辛基宣言的道德标准进行的。

同意发表

不适用。

利益竞争

作者声明没有竞争利益。

附加信息

出版商备注

施普林格·自然对于已出版的地图和机构隶属关系中的管辖权主张保持中立。

补充信息

引用这篇文章

Check for updates. Verify currency and authenticity via CrossMark

Qi,S.,Zheng,S.,Lu,M。

等人。建立一个基于机器学习的风险预测模型,以减少孕期流产。BMC 怀孕分娩24 ,738(2024)。https://doi.org/10.1186/S12884-024-06942-W

下载引文

  • 已收到:

  • 公认:

  • 已发表:

  • DOI:https://doi.org/10.1186/S12884-024-06942-W

关键词

关于《构建基于机器学习的中期流产风险预测模型》的评论


暂无评论

发表评论

摘要

所提供的信息概述了一项研究,重点是开发基于机器学习的中期流产风险预测模型。本研究的关键组成部分总结如下:### 概述**目标:** 使用机器学习技术开发和验证预测模型,以识别处于妊娠中期流产高风险的女性。### 研究设计- **类型:** 回顾性队列研究。- **地点:** 中国浙江省宁波大学妇女儿童医院。- **参与者:** 拥有可从医院数据库中分析的记录的孕妇。- **数据收集:** 回顾性收集和分析数据。### 方法#### 数据收集- 参与者的人口统计信息(年龄、胎次等)。- 病史(既往妊娠史、产科史)。- 实验室结果(血液测试、阴道液体分析)。- 怀孕期间的临床表现(出血或分泌物等症状)。#### 模型开发1. **特征选择:** 通过统计分析识别显着的预测因子。2. **机器学习模型:** 使用逻辑回归、决策树、随机森林和支持向量机等算法。3. **模型评估:** 使用准确度、精确度、召回率、F1 分数和 AUC-ROC 等指标。#### 道德考虑- 机构审查委员会 (IRB) 批准了该研究。- 由于其追溯性而放弃知情同意。- 符合赫尔辛基宣言中概述的道德标准。### 结果所提供的摘要中未明确详细说明,但通常包括:- 确定妊娠中期流产的关键预测因素。- 使用的不同机器学习模型的性能指标。- 将模型预测与实际结果进行比较的验证结果。### 讨论该研究旨在为医疗保健提供者和孕妇提供一种工具,可以根据早期妊娠数据预测妊娠中期流产的风险。这可能通过促进早期干预或监测高危妊娠来改善患者护理。### 结论使用机器学习技术开发准确的预测模型对于识别有妊娠中期流产风险的女性至关重要,从而实现有针对性的干预措施和更好的临床管理策略。### 致谢与资助- **致谢:** 不适用。- **经费:** 宁波市医学重点学科(2022-B16)、浙江省卫生科技计划(2022KY1155)、宁波市重点研发计划(2023Z183)资助。### 作者贡献- **桑桑奇:** 资料收集、研究构思、分析、稿件起草。- **石正 & 孟丹路:** 数据收集。- **陈安二和陈彦博:** 数据监督。- **付宪虎:** 手稿修改(研究概念和设计)、资金获取、伦理批准、数据监督。### 利益冲突作者声明没有竞争利益。### 出版许可证该文章根据知识共享署名-非商业性-禁止衍生品 4.0 国际许可发布,只要给予原作者适当的归属,就​​允许非商业用途。---本摘要概述了该研究的目标、方法、伦理考虑和作者的贡献,及其在妇产科领域的意义。