使用 AI 根据胎心监护信号预测胎儿健康状况 - Google 研究

2024-09-27 18:33:36 英文原文

使用人工智能根据胎心监护信号预测胎儿健康

2024 年 9 月 27 日

Mercy Asiedu,Google Research 研究科学家,Nichole Young-Lin,临床Google Health 负责人

我们介绍了我们在开发和评估胎心监护机器学习模型方面的工作,以预测胎儿的健康状况,并了解影响模型性能的因素。

快速链接

胎心监护 (CTG) 是一种基于多普勒超声的技术,用于在怀孕和分娩期间通过记录胎心率 (FHR) 和子宫收缩 (UC) 来监测胎儿的健康状况。CTG 可以连续或间歇进行,导线可以放置在外部或内部。体外 CTG 涉及使用放置在亲生父母腹部的两个传感器:放置在胎心位置上方的超声波换能器以监测 FHR,以及放置在子宫底的分娩力计(压力传感器)以测量 UC。

目前,提供者使用国家儿童健康和人类发展研究所(NICHD;指南)或国际妇产科医生联合会(FIGO;指南)等指南来解释 CTG 记录。这些标准定义了可能表明胎儿窘迫的 CTG 和 FHR 轨迹中的不同模式。

今天,我们介绍了我们最近的论文《用于胎心监护解释的深度学习模型的开发和评估》中的工作,其中我们描述了以下研究:我们的新机器学习 (ML) 模型将为医疗服务提供者提供客观的解释帮助,以减轻负担并可能改善胎儿结局。使用开源 CTG 数据集,我们开发了基于端到端神经网络的模型来预测胎儿健康状况的指标,包括客观(胎儿动脉脐带血 pH 值,即胎儿酸中毒)和主观(胎儿 Apgar 评分))措施。考虑到在临床环境中使用该用例的潜在高风险性质,我们进行了广泛的评估,以检查模型在不同输入(包括仅 FHR、FHR+UC 和 FHR+UC+元数据)下的表现。

利用深度神经网络改善 CTG 解释

目前,CTG 和超声是评估子宫内胎儿健康状况的主要手段。尽管 CTG 在医疗实践中常规使用,但其在连续产时胎儿监测中的应用存在较高的假阳性率,且对胎儿结局改善的证明有限。这种高假阳性率导致剖宫产和阴道手术分娩率增加,但新生儿结局的改善有限。这可能是由于读取和解释胎心描记图的复杂性、视觉解释方法的主观性以及读取描记图时观察者内部和观察者之间的变异性。这些问题在资源匮乏的设施中更加严重,因为熟练的口译员的获得更加有限。

当前使用机器学习算法对异常 CTG 进行分类的研究方法通常使用基于表格规则的诊断特征提取,例如摘要胎心率统计。虽然这种方法有望改善临床决策支持,但特征提取会减少时间序列数据中丰富的 CTG 信息。因此,对于 CTG 解释,最近的焦点转向使用生理时间序列数据作为输入的深度学习方法 [1,2,3]。然而,这些方法通常不会比较客观和主观真实标签之间的性能差异,也不会探索间歇测量或临床元数据的影响。

使用开放许可数据集 CTU-UHB 产时心胎监护数据库,其中有 552 个 FHR 和 UC CTG 信号对,截至分娩前 90 分钟,总共约 50,000 分钟的记录:

  • 我们强调使用深度学习方法通​​过 CTG 预测胎儿缺氧的可行性.
  • 我们进行评估研究来分析以下方面的效果:
    • 客观(动脉脐带血 pH 值)与主观(阿普加评分)标签的选择,
    • 用于训练和测试的信号时间间隔,
    • 模拟低资源环境间歇信号对预测性能的评估。

建立在当前最先进的 CTG 解释模型的基础上

模型架构

我们从 CTG-net 网络架构开始,它将成对的 FHR 和 UC 输入信号进行时间卷积在进行深度卷积以了解它们之间的关系之前。我们添加了以下方法配置:

  • 架构和超参数优化:我们运行随机卷积参数和超参数搜索来选择任务的最佳模型配置和超参数。
  • 单输入变体:我们开发了该模型的一维卷积神经网络变体,该模型仅接收一个信号来分别与 FHR 或 UC 进行性能比较,并探索各个信号的用途。
  • 添加元数据:我们将临床元数据作为向量添加到输入中。

预处理

我们为输入信号创建预处理管道,以提高数据质量、平滑信号,并解释间隙。这包括输入缺失的测量值、随机裁剪(用于预训练和特定训练评估)以及用于数据增强和下采样的附加多尺度噪声。这会生成 430 万分钟(n=496 名患者)的预训练信号、约 15 万分钟(n=496 名患者)的训练信号以及约 1,700 分钟(n=56 名患者)的测试信号。

预训练

鉴于开放许可数据集中的患者数量有限(n=552),我们在最后 30 分钟之前对裁剪信号片段进行模型预训练,然后对最后的信号片段进行微调测试集的 30 分钟,我们将其用作我们的主要兴趣时间点。

间歇性与连续性 CTG 用例

CTG 使用有两种主要格式:间歇性和连续性。在大多数资源丰富的环境中,诊所在整个分娩过程中使用连续 CTG 来持续监测胎儿心率。这些典型的数字信号记录子宫收缩和胎儿心率。然而,在资源匮乏的环境中,经常使用间歇性 CTG,这可能只覆盖分娩过程中任何时间点的 30 分钟左右,然后打印出来供提供者解释。

来自 CTU 的开源数据-UHB 数据库来自连续 CTG 设置,与通常在资源匮乏设置中看到的间歇性模拟 CTG 形成鲜明对比。我们的主要贡献之一是了解间歇时间点的训练和评估如何影响模型性能。作为评估过程的一部分,我们模拟了间歇性设置,将数据集中的 90 分钟信号拆分为 30 分钟信号,并在不同时间点训练和评估模型。

预测客观和主观真实标签

h3>

另一个关键的方法学贡献是我们使用数据集中的三个结果标签:

  • 动脉脐带血 pH 值是一种客观测量值,通常在资源丰富的环境中可用,追踪胎儿酸中毒,这是胎儿窘迫的征兆。如果分数低于 7.2,则认为 pH 值异常。
  • Apgar 分数是临床医生在分娩后记录的主观测量值(范围从 010 开始),反映了新生儿的总体健康状况。Apgar 评分因其简单性、成本效益以及脐带血 pH 分析的潜在经济负担而成为资源匮乏地区的主要分娩结果描述符。如果 1 分钟 Apgar 评分低于 7,则认为异常。
  • 如果 Apgar 或 pH 结果异常,则标记为异常。

评估模型预测稳健性

出于评估目的,我们进行了以下比较。

  • 我们在数据集上的表现与最先进的 CTG-net 模型的表现
  • Apgar 与 pH 分类任务
  • 仅 FHR 与 FHR+UC
  • 使用最后 30 分钟分娩的基本模型(连续情况)与间歇测量
  • FHR+UC 的基本模型与 FHR+UC+元数据
  • 基本模型 (FHR+UC) 的亚组表现,其中亚组通过二值化临床元数据(例如,低/高产妇年龄、低/高出生时的妊娠周、频繁/不频繁的信号间隙)

我们发现我们的方法与 CTG-net 中报告的 AUROC 相当,即使它是在较小的数据集上进行训练的。当我们在同一数据集上训练和评估这两种方法时,我们发现我们的方法将模型性能提高了 10 个以上的 AUROC 个百分点。

AUROC<行跨度=“3”><单元格>

CTG-net*

<单元格>

0.68 0.03

<单元格>

<单元格>

CTG-net(在我们使用的同一数据集上)

<单元格>

0.57 0.08

<单元格>

<单元格>

我们的模型

<单元格>

0.68 0.07

<单元格>

0.27 (0.18)

<行><单元格>

<单元格>

0.45(95% CI:0.23-0.68)

该表比较了模型和临床医生在异常胎儿状态(pH

关于《使用 AI 根据胎心监护信号预测胎儿健康状况 - Google 研究》的评论


暂无评论

发表评论

摘要

使用 AIS 预测胎儿健康状况 2024 年 9 月 27 日 Google Research 研究科学家 Mercy Asiedu 和 Google Health 临床负责人 Nichole Young-Lin 我们介绍了开发和评估胎心监护机器学习模型的工作,以更好地预测胎儿-存在,并了解哪些因素影响模型性能。快速链接心胎监护 (CTG) 是一种基于多普勒超声的技术,用于在怀孕和分娩期间通过记录胎心率 (FHR) 和子宫收缩 (UC) 来监测胎儿的健康状况。基于当前最先进的 CTG 解释模型模型架构我们从 CTG-net 网络架构开始,它在进行深度卷积之前对成对的 FHR 和 UC 输入信号进行时间卷积,以了解它们之间的关系。我们在数据集上的表现与最先进的 CTG-net 模型比较Apgar 与 pH 分类任务仅 FHR 与 FHR UC 使用最后 30 分钟分娩的基础模型(连续情况)与间歇性测量比较 FHR UC 的基本模型与 FHR UC 元数据子组性能基础模型 (FHR UC) 的亚组通过二值化临床元数据(例如,低/高产妇年龄、低/高出生孕周、频繁/不频繁信号间隙)确定,我们发现我们的方法与报告的 AUROC 表现相当CTG-net,即使它是在较小的数据集上进行训练的。此外,我们的研究没有将算法性能与临床医生查看相同数据集进行比较,这促使未来的研究探索不同的人类和算法使用组合。