COMET 是一种新颖的机器学习框架,使用迁移学习集成 EHR 数据和组学分析,显着增强预测模型并揭示小群体的生物学见解。
学习:利用电子健康记录增强组学分析的机器学习方法。图片来源:LeoWolfert/Shutterstock
在最近发表在该杂志上的一项研究中自然机器智能研究人员提出了通过迁移学习增强的临床和组学多模态分析 (COMET),这是一种深度学习和迁移学习协议。
组学技术的进步彻底改变了生物学的理解。蛋白质组学、代谢组学、转录组学和其他分析方法能够对同一样本中的分析物进行经济有效的估计。虽然这些测定产生高维数据,但预算和临床限制限制了组学队列的规模。因此,需要创新方法来增强高维数据的分析。
尽管统计方法可以解决误报问题,但用于机器学习 (ML) 的方法却较少。一些方法依赖于迁移学习,这是一种从预训练数据集中学习机器学习模型的技术,该模型随后用于研究较小的数据集。虽然更现代的深度学习方法已应用于统计框架,但它们主要依赖于仅从信息元数据或组学数据中学习。
COMET 框架通过集成大型电子健康记录 (EHR) 数据集的预训练以及混合早期和晚期融合策略来克服这些限制,从而提高预测性能和生物发现。
研究和结果
在本研究中,研究人员引入了 COMET,这是一种改进组学分析的深度学习和迁移学习协议。当电子健康记录 (EHR) 和组学数据可用于更大或更小的队列时,可以应用 COMET。COMET 包括嵌入纵向 EHR 数据、预训练和多模态建模的方法。
COMET 涉及仅在 EHR 数据上训练的 ML 模型,该模型将其权重转移到多模式架构中,并在较小的组学和 EHR 数据样本上进行训练和评估。首先,应用 COMET 来预测斯坦福医疗保健公司超过 30,904 名孕妇的妊娠队列中的临产天数。大约 61 名孕妇(组学队列)在怀孕最后几天采集了多个血浆样本,这些样本用于生成测量 1,317 种蛋白质的蛋白质组学数据集。一个
COMET 的输入是 EHR 数据和(对于一部分患者)配对的表格组学数据。仅拥有 EHR 数据的患者用于预训练 (PT) 神经网络,仅使用 EHR 数据来预测患者结果。该 EHR 网络的权重被转移到多模态神经网络,用于分析 EHR 和组学数据;神经网络用于预测建模,网络的事后分析用于生物发现。COMET 框架非常灵活,可用于预测任何连续或二元结果。 乙,使用 word2vec 将 EHR 数据的 One-hot 编码向量(以白色显示)转换为嵌入(以蓝色显示);对特定一天内发生的每个代码的嵌入进行平均,以计算顺序的摘要嵌入。 c,COMET 使用多模态深度学习架构来分析 EHR 数据和组学数据。预训练阶段仅使用EHR数据;核心架构是一个带有门控循环单元的 RNN。预训练后,RNN 权重被冻结并转移到分析 EHR 和组学数据的多模式架构中。
从怀孕开始到采血的电子病历数据被用来预测临产天数。在仅对 EHR 数据(30,843 人)进行预训练后,权重被转移到经过训练以对组学队列进行预测的多模式网络。该模型的 Pearson 相关系数达到 0.868(95% 置信区间 [0.825, 0.900]),展示了其强大的预测能力。预测的临产天数与实际的临产天数之间存在很强的相关性,这表明 COMET 在具有多维数据的小队列中具有很高的准确性。
接下来,仅使用蛋白质组数据、EHR 数据或两者,将 COMET 与基线模型进行比较。这些基线模型仅使用组学队列数据,未经预训练。仅 EHR 基线模型表现最差,相关性为 0.768,而仅蛋白质组学模型表现稍好,为 0.796。联合基线模型是基线中最好的,相关性为 0.815,但仍然不如 COMET。
为了获得更深入的见解,研究人员利用 t 分布随机邻域嵌入 (t-SNE) 将相关矩阵投影到二维中来可视化多模态数据,根据相关模式揭示有意义的特征簇。紧密的特征与空间中的所有其他变量表现出类似的相关性。这些簇是根据每个簇内 EHR 或蛋白质特征所代表的医学概念进行注释的。各种蛋白质与 EHR 变量显示出显着相关性。
该团队计算了每种蛋白质的特征重要性。在 COMET 模型中被确定为与胎儿发育、妊娠并发症和胎龄高度相关的蛋白质,与既定的生物学知识相一致。接下来,COMET 被应用于英国 (UK) 生物银行的癌症队列,以预测三年癌症死亡率。参与者都是在入组后五年内诊断出患有任何癌症的患者。
一部分参与者拥有可用于蛋白质组学数据分析的血液样本。如果样本是在癌症发生一年内收集的,他们就会被纳入组学队列中诊断。与所有基线相比,COMET 在预测三年癌症死亡率方面始终表现出色,受试者工作特征曲线下面积 (AUROC) 为 0.842,显着优于联合基线 (AUROC 0.786) 和单一模式模型。组学队列中三年死亡率的发生率为 5.5%。
此外,t-SNE 用于可视化相关矩阵,这表明与临产数据相比,EHR 和蛋白质组数据模式之间的重叠较少。然而,当相关网络可视化时,电子病历和蛋白质组学数据模态之间存在显着的相关性,每种模态单独投影到二维中。死亡因子 4 样蛋白 2 与 EHR 特征(尤其是药物处方)表现出最强的相关性,凸显了其作为预后预测的潜力生物标志物。
很大一部分癌症患者的蛋白质(66%)显示与任何 EHR 变量都没有相关性。此外,研究人员还估计了每个 EHR 特征与所有蛋白质之间的相关性,以及每个 EHR 特征的所有蛋白质之间的最大相关性。这揭示了许多与癌症患者蛋白质相关性较低的 EHR 特征,强调了包含多种数据模式的价值。
COMET 模型中具有更大特征重要性的蛋白质与已知的癌症预后生物标志物一致。重要的是,COMET 模型中更重要的九种蛋白质在统计上与死亡率状态相关,进一步验证了该模型的生物学相关性。
结论
总之,该研究说明了 COMET 通过预训练和迁移学习增强跨多个任务的预测建模的能力。COMET 产生了更好的正则化模型,更准确地反映了已知的生物学。此外,COMET 模型还确定了与特定健康结果相关的生物学相关蛋白质。
在临产模型中,COMET 揭示了对妊娠并发症、免疫调节和胎盘发育至关重要的蛋白质,皮尔逊相关值支持其预测能力。对于癌症死亡率,已确定的蛋白质是那些参与肿瘤增殖和微环境调节的蛋白质。总体而言,COMET 为描述临床表型和分子机制之间的复杂关系奠定了基础。
期刊参考:
- Mataraso SJ、Espinosa CA、Seong D 等人。一种利用电子健康记录来增强组学分析的机器学习方法。 自然机器智能,2025 年,DOI:10.1038/s42256-024-00974-9, https://www.nature.com/articles/s42256-024-00974-9