亲爱的编辑,
作为生命的基本单位,该细胞由于其固有的复杂性和动态特性而在生物学研究中提出了核心挑战。最近发表的观点细胞[1]和一篇在框外的文章创新生活[2]概述了我们构建人工智能虚拟细胞(AIVC)的愿景。与其他疾病不同,癌症从根本上是一种细胞疾病。虽然其他学科的重点是系统或器官水平的病理生理变化,但癌症独特的始于基因组不稳定性在细胞水平上触发的异常增殖,随后诱导局部微环境重塑。这种自下而上的致病模式使肿瘤学特别适合通过AIVC技术进行调查。AI的快速发展为直接从数据中学习生物学模式和过程的新途径提供了新的途径,而无需依赖预定的规则或人类注释。在这种背景下,本文从癌症研究的角度探讨了AIVC技术的变革潜力。
AIVC的定义
AIVC最初被认为是通过明确定义的数学方法或AI技术来整合和推广多模式观察数据的综合数字双物理模型,从而实现了计算操作,从而实现了实时模拟的细胞分子过程[3,,,,4]。然而,细胞是非常复杂的动态自适应系统,其特征在于无数的非线性分子相互作用,其中较小的输入变化会导致复杂的输出变化。这种复杂性对于癌细胞尤其重要,在癌细胞中,细胞表型中的轻微扰动会直接影响临床决策。例如,在乳腺癌患者常规接受内分泌治疗中,单点突变PIK3CA(磷脂酰肌醇-4,5-双磷酸3-激酶催化亚基α)导致磷脂酰糖醇3-激酶/蛋白激酶B/哺乳动物rapamycin(PI3K/AKT/MTOR,PAM,PAM)的磷脂酰肌醇3-激酶/哺乳动物靶标的异常活化治疗性抗性,因此需要其他PIK3CA抑制剂[5]。此外,非静态肿瘤细胞的连续克隆演化可以通过表观遗传修饰产生新的抗性机制或细胞状态改变。这种高度的复杂性和灵敏度使完整的模拟极具挑战性。
当前的生物学观察方法无法同时跟踪所有分子事件。高通量测序和高分辨率实时成像只能捕获部分细胞横截面。这种观察性瓶颈限制了在扰动和不受干扰的条件下构建高保真AI细胞模型所需的综合数据。推进这一领域需要开发更全面的细胞观察技术,因此可以简化数据收集方法(鉴于生物学数据通常包含大量冗余,导致模型培训的回报率降低),并且更有效的培训方法。
因此,建立基于细胞的AI学习模型代表了一种更可行的方法,因为制作实际细胞的计算副本可能是不切实际的。该抽象模型并非旨在完全模拟所有细胞过程,而是专注于从现有数据中学习以预测特定的分子或细胞表型。AIVC应被理解为AI框架,它是生物基础模型的结构。该框架促进了各种生物学数据的连接和协作,从而根据现有知识系统抽象地表达和预测多个尺度的细胞特征。
肿瘤学的潜在应用
在重塑癌症研究范例的硅实验中
AIVC来自生物数据的指数增长,有望扩大传统多摩学实验方法的方法学界限。使用操纵器和解码器虚拟仪器(VIS),这些工具(VIS)精确地调节了跨不同尺度的通用表示(URS),AIVCS作为计算双胞胎的功能,启用自上而下的模拟和预测。该能力对于难以直接观察到的体外或分子过程中的培养过程中具有挑战性的细胞类型特别有价值。例如,组织尺度的微调UR可以替代经典的单细胞分辨率方法,用于识别肿瘤中特定的细胞群体或功能域。鉴于AIVC框架结合了UR聚集和转换的机制,因此从较低物理尺度的表示形式可以在随后的较高的物理尺度上产生表示形式。这可以解释亚组织尺度表型,例如动态细胞相互作用,肿瘤进化轨迹和基因 - 观测蛋白信号调节轴。
这将建立一个新的计算实验性迭代研究范式,该研究范式为新型癌症治疗和治疗策略的翻译和机械研究提供了预测性蓝图:AIVCS对下游效应和网络重建的大规模计算筛选(例如,治疗后(例如药物,细胞质,细胞质,细胞质,细胞质,细胞质,细胞质,细胞质,细胞质,细胞质),靶向抑制剂/激活剂),并为验证和数据生成提供特定的实验设计。这是因为该框架的VIS(设计为专业的神经网络)可以操纵和解释UR(图。 1一个)。当与扰动实验条件生成模型和基于预测置信度的主动学习机制结合使用时,AIVC可以进行虚拟实验,并为结果提供置信得分,以指导随后的实验设计,同时保持开放的数据接口。然后,通过数据界面将实验数据馈回系统,以进行进一步的预测分析,从而完成模型迭代(图。 1b)。
突破多摩斯癌研究的瓶颈
第一个突破可能解决多摩斯癌症研究中的基本挑战:重建细胞状态的真实动态变化。尽管连续采样可以提供时间序列数据,但离散抽样方法仍然不足以表示细胞状态过渡的真实密度。此外,现有的时间分析方法通过订购细胞群体的基因表达模式来推断发育轨迹,这实际上代表了细胞状态进展的时间无关的推断。AIVC通过一种新的方法来应对这些动态挑战:通过对细胞状态的瞬时性质和连续通量进行建模,AI算法可以在离散时间点之间插值以实现分子和细胞事件的连续模拟。这促进了对早期肿瘤发生的更详细的观察,其中微调多尺度的UR可以推断出出现前改变的变化的出现,同时捕获遗传因素和环境条件的影响(图。 1c)。
通过整合生成的AI方法,AIVC可以生成新数据,以支持对稀缺生物样品的研究,例如稀有肿瘤或新型抗癌治疗[6]。这些研究通常受到有限的样本量的限制,迫使对高通量测序的依赖与许多低通量实验相结合。可以将生成的数据集成到AIVC中,利用已建立的阈值来解释异质性和均匀性,从而调整URS并与现有数据接口以实现有效的数据扩展。但是,生成AI含量的可靠性提出了重大挑战。理想的解决方案涉及在模型构建过程中增加弱分子相互作用和稀有肿瘤数据的比例,同时保持整体数据平衡。鉴于对弱分子相互作用网络进行建模的复杂性,该领域仍需要进一步的技术突破和发展(图。 1c)。
加速抗癌药物开发和个性化医学
在转化医学中,AIVC可以用作特定于患者的数字模型[7]。通过将患者临床信息和肿瘤微环境特征整合到微调AIVC中,可以构建疾病特异性的研究平台。主要优势不仅在于仅绘制患者结局和肿瘤特征之间的关系以确定药物反应,而在于模拟肿瘤细胞行为和微环境变化,作为用于药物开发的高通量筛查系统。尽管可能不如器官模型真实,但将虚拟药物试验与器官验证实验相结合,可确保筛选效率和结果可靠性,同时加速药物开发过程。此外,使用新型的低成本诊断数据更新模型,例如循环肿瘤DNA液体活检[8]和放射学[9],可以为每个患者生成个性化的虚拟模型。这可以进行精确的肿瘤诊断和个性化治疗,同时还允许虚拟药物给患者数字模型预览潜在的治疗益处和不良反应(图。 1D)。
AIVC结构中的肿瘤学问题
评估:最重要的是什么?
模型评估代表了一个关键的挑战,因为当前的生物基础模型缺乏统一的评估标准。尽管这些模型通常表现出特定的任务模拟能力,但其关键概括能力(对于AIVC来说尤其重要)仍然不足地进行了评估[1,,,,10]。此外,异质性是将癌症与其他疾病区分开的定义特征。即使在相同类型的肿瘤上皮细胞中,由于基因组不稳定性引起的基因表达模式的差异也会导致截然不同的治疗反应,并且这种异质性在疾病进展和治疗过程中不断发展。因此,我们建议分辨率功率应该是评估模型的关键性能指标。模型不仅必须从大量数据集中提取跨疾病和物种的普遍生物学特征,而且还必须保持足够的分辨率来捕获微妙的异质性特征。但是,并非所有差异都具有功能意义,而盲目增加的分辨率会损害模型区分技术噪声,随机生物学变异和真正的生理差异的能力。AI工程师必须在这些竞争要求之间取得平衡。
生物基础模型的利用
当前,许多基础模型专门针对分子和单细胞尺度。将这些成熟模型与相应的规模UR整合在一起可以加速AIVC的构建。但是,模型融合策略仍然欠发达,提出了需要注意的几个关键挑战:模型兼容性问题,输入输出接口的差异,特定模块更换的考虑以及选择适当的应用程序方案。此外,在整合过程中,建立严格的评估和基准测试系统对于确保所选模型与研究目标保持一致的同时保持足够的计算效率至关重要。
数据不平衡挑战
尽管生物信息学中存在前所未有的数据爆炸,但数据分布不平衡仍然是AIVC构建的至关重要的挑战[1]。这种不平衡在多个层面上表现出来。例如,数据库中高活性肿瘤类型的过分代表会导致训练数据偏见,从而限制了模型泛化能力。在分子量表上,分子相互作用的数据表现出明显的偏差。当前的检测技术通常难以捕获弱但具有生物学意义的相互作用。更重要的是,现有研究不成比例地关注突出的分子相互作用,进一步加剧了数据失衡。另外,组织内不同细胞类型的比例的显着变化导致稀有细胞群体的表征数据不足。尽管可以努力增加数据的比例,但总体稀缺仍然是一个限制,其对特定任务的实际影响需要系统评估。
前景
生活的数字化是全球科学家之间的共同愿望。随着其快速发展的肿瘤学,它具有独特的位置,可以开创这种数字化转型。虽然肿瘤法数据库和生物基础模型的扩散提供了有希望的机会,但在建立全面的AIVC方面仍然存在重大挑战。因此,必须加强临床医生,实验科学家和AI研究人员之间的对话,以共同推进癌症研究和精密医学,最终实现征服癌症的目标。
数据可用性
不适用。
缩写
- 人工智能:
-
人工智能
- AIVC:
-
人工智能虚拟单元格
- 帕姆:
-
磷脂酰肌醇3-激酶/蛋白激酶B/哺乳动物型雷帕霉素的靶标(PI3K/AKT/MTOR)
- URS:
-
通用表示
- VIS:
-
虚拟仪器
参考
Bunne C,Roohani Y,Rosen Y,Gupta A,Zhang X,Roed M等。如何使用人工智能构建虚拟单元:优先级和机遇。细胞。2024; 187(25):7045 - 63。
文章一个 CAS一个 PubMed一个 Google Scholar一个
Yang T,Ma F,Qian H,XuB。数字细胞模型的AI驱动的结构。创新生活。2024; 2(4):100102。
文章一个 Google Scholar一个
Karr JR,Sanghvi JC,Macklin DN,Gutschow MV,Jacobs JM,Bolival B JR等。一个全细胞计算模型可以从基因型中预测表型。细胞。2012; 150(2):389 401。
文章一个 CAS一个 PubMed一个 PubMed Central一个 Google Scholar一个
Maritan M,Autin L,Karr J,Covert MW,Olson AJ,Goodsell DS。建立整个支原体细胞的结构模型。J Mol Biol。2022; 434(2):167351。
文章一个 CAS一个 PubMed一个 Google Scholar一个
Turner NC,IM SA,Saura C,Juric D,Loibl S,Kalinsky K等。基于Inavolisib的PIK3CA突变的晚期乳腺癌的治疗。N Engl J Med。2024; 391(17):1584年96。
文章一个 CAS一个 PubMed一个 Google Scholar一个
Zitnik M,Li MM,Wells A,Glass K,Morselli Gysi D,Krishnan A等。网络生物学的当前和未来方向。生物知识副词。2024; 4(1):VBAE099。
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
Katsoulakis E,Wang Q,Wu H,Shahriyari L,Fletcher R,Liu J等。健康双胞胎的健康:范围评论。NPJ Digit Med。2024; 7(1):77。
文章一个 PubMed一个 PubMed Central一个 Google Scholar一个
适应EJ,NABET,由Alizadeh AA,DiehnM。检测实体瘤的液体残留物:循环肿瘤DNA最小残留疾病。癌症。2021; 11(12):2968 - 86。
文章一个 CAS一个 PubMed一个 PubMed Central一个 Google Scholar一个
Zhang YP,Zhang XY,Cheng YT,Li B,Teng XZ,Zhang J等。人工智能驱动的癌症研究:特征工程和建模的作用。Mil Med Res。2023; 10(1):22。
Liu J,Shen Z,He Y,Zhang X,Xu R,Yu H等。迈向分布概括:一项调查。Arxiv,2021:2108.13624。
致谢
图 1是由biorender.com创建的。
资金
这项工作得到了中国国家关键研究与发展计划(2022YFE0103600,2024YFA1107400),中国国家自然科学基金会(82472633,92459304)和CAMS医学科学创新基金会(2022-2M-I2M-2-001,2022-I2M-2-2--001,202459304)2023-I2M-2-004)。
道德声明
竞争利益
作者没有宣称没有竞争利益。
权利和权限
开放访问本文均根据创意共享归因4.0国际许可,允许以任何媒介或格式使用,共享,适应,分发和复制,只要您适当归功于原始作者和来源链接到Creative Commons许可证,并指示是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可中,除非在材料的信用额度中另有说明。如果文章的创意共享许可中未包含材料,并且您的预期用途不得由法定法规允许或超过允许的用途,则需要直接从版权所有者那里获得许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/4.0/。创意共享公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在信用额度中另有说明。
关于这篇文章
引用本文
Yang,T.,Wang,YY。,MA,F。等。用人工智能构建虚拟细胞:癌症研究的观点。军事医学储备 12,4(2025)。https://doi.org/10.1186/s40779-025-00591-6
已收到:
公认:
出版:
doi:https://doi.org/10.1186/s40779-025-00591-6