2024 年 9 月 27 日
Mercy Asiedu,Google Research 研究科学家,Nichole Young-Lin,临床Google Health 负责人
我们介绍了我们在开发和评估胎心监护机器学习模型方面的工作,以预测胎儿的健康状况,并了解影响模型性能的因素。
胎心监护 (CTG) 是一种基于多普勒超声的技术,用于在怀孕和分娩期间通过记录胎心率 (FHR) 和子宫收缩 (UC) 来监测胎儿的健康状况。CTG 可以连续或间歇进行,导线可以放置在外部或内部。体外 CTG 涉及使用放置在亲生父母腹部的两个传感器:放置在胎心位置上方的超声波换能器以监测 FHR,以及放置在子宫底的分娩力计(压力传感器)以测量 UC。
目前,提供者使用国家儿童健康和人类发展研究所(NICHD;指南)或国际妇产科医生联合会(FIGO;指南)等指南来解释 CTG 记录。这些标准定义了可能表明胎儿窘迫的 CTG 和 FHR 轨迹中的不同模式。
今天,我们介绍了我们最近的论文《用于胎心监护解释的深度学习模型的开发和评估》中的工作,其中我们描述了以下研究:我们的新机器学习 (ML) 模型将为医疗服务提供者提供客观的解释帮助,以减轻负担并可能改善胎儿结局。使用开源 CTG 数据集,我们开发了基于端到端神经网络的模型来预测胎儿健康状况的指标,包括客观(胎儿动脉脐带血 pH 值,即胎儿酸中毒)和主观(胎儿 Apgar 评分))措施。考虑到在临床环境中使用该用例的潜在高风险性质,我们进行了广泛的评估,以检查模型在不同输入(包括仅 FHR、FHR+UC 和 FHR+UC+元数据)下的表现。
目前,CTG 和超声是评估子宫内胎儿健康状况的主要手段。尽管 CTG 在医疗实践中常规使用,但其在连续产时胎儿监测中的应用存在较高的假阳性率,且对胎儿结局改善的证明有限。这种高假阳性率导致剖宫产和阴道手术分娩率增加,但新生儿结局的改善有限。这可能是由于读取和解释胎心描记图的复杂性、视觉解释方法的主观性以及读取描记图时观察者内部和观察者之间的变异性。这些问题在资源匮乏的设施中更加严重,因为熟练的口译员的获得更加有限。
当前使用机器学习算法对异常 CTG 进行分类的研究方法通常使用基于表格规则的诊断特征提取,例如摘要胎心率统计。虽然这种方法有望改善临床决策支持,但特征提取会减少时间序列数据中丰富的 CTG 信息。因此,对于 CTG 解释,最近的焦点转向使用生理时间序列数据作为输入的深度学习方法 [1,2,3]。然而,这些方法通常不会比较客观和主观真实标签之间的性能差异,也不会探索间歇测量或临床元数据的影响。
使用开放许可数据集 CTU-UHB 产时心胎监护数据库,其中有 552 个 FHR 和 UC CTG 信号对,截至分娩前 90 分钟,总共约 50,000 分钟的记录:
我们从 CTG-net 网络架构开始,它将成对的 FHR 和 UC 输入信号进行时间卷积在进行深度卷积以了解它们之间的关系之前。我们添加了以下方法配置:
我们为输入信号创建预处理管道,以提高数据质量、平滑信号,并解释间隙。这包括输入缺失的测量值、随机裁剪(用于预训练和特定训练评估)以及用于数据增强和下采样的附加多尺度噪声。这会生成 430 万分钟(n=496 名患者)的预训练信号、约 15 万分钟(n=496 名患者)的训练信号以及约 1,700 分钟(n=56 名患者)的测试信号。
鉴于开放许可数据集中的患者数量有限(n=552),我们在最后 30 分钟之前对裁剪信号片段进行模型预训练,然后对最后的信号片段进行微调测试集的 30 分钟,我们将其用作我们的主要兴趣时间点。
CTG 使用有两种主要格式:间歇性和连续性。在大多数资源丰富的环境中,诊所在整个分娩过程中使用连续 CTG 来持续监测胎儿心率。这些典型的数字信号记录子宫收缩和胎儿心率。然而,在资源匮乏的环境中,经常使用间歇性 CTG,这可能只覆盖分娩过程中任何时间点的 30 分钟左右,然后打印出来供提供者解释。
来自 CTU 的开源数据-UHB 数据库来自连续 CTG 设置,与通常在资源匮乏设置中看到的间歇性模拟 CTG 形成鲜明对比。我们的主要贡献之一是了解间歇时间点的训练和评估如何影响模型性能。作为评估过程的一部分,我们模拟了间歇性设置,将数据集中的 90 分钟信号拆分为 30 分钟信号,并在不同时间点训练和评估模型。
另一个关键的方法学贡献是我们使用数据集中的三个结果标签:
出于评估目的,我们进行了以下比较。
我们发现我们的方法与 CTG-net 中报告的 AUROC 相当,即使它是在较小的数据集上进行训练的。当我们在同一数据集上训练和评估这两种方法时,我们发现我们的方法将模型性能提高了 10 个以上的 AUROC 个百分点。
该表比较了模型和临床医生在异常胎儿状态(pH