作者:by Los Alamos National Laboratory
为了了解 DNA 与疾病相关的运作方式,洛斯阿拉莫斯国家实验室的科学家开发了同类中第一个多模式深度学习模型 EPBDxDNABERT-2,能够确定转录因子、调节基因活动的蛋白质之间的精确关系,利用DNA 的一个方面称为 DNA 呼吸,其中双螺旋结构自发打开和关闭。该模型有可能有助于设计用于治疗源于基因活性的疾病的药物。
“转录因子有很多种类型,人类基因组是难以理解的大,”洛斯阿拉莫斯研究员兼该论文的主要作者 Anowarul Kabir 说发表在核酸研究。“因此,有必要找出哪个转录因子与极其长的 DNA 结构上的哪个位置结合。我们试图用以下方法解决这个问题:人工智能,特别是深度学习算法。”
DNA 相当于 30 亿个英文字母,被写入每个人体细胞中,为人类生命的生长和维持提供了蓝图。转录因子与部分 DNA 结合并影响基因表达的调节:单个基因如何为细胞的发育和功能提供特定的指令。由于这种表达可以在癌症等疾病中表现出来,因此预测与特定基因位置结合的转录因子可能会对药物开发产生影响。
基础的模型研究小组使用的产品经过了 DNA 序列的培训。该团队构建了一个 DNA 模拟程序,可以捕获大量 DNA 动力学,并将其与基因组基础模型集成,从而产生 EPBDxDNABERT-2,能够处理跨染色体的基因组序列,并将相应的 DNA 动力学作为输入。
其中一种输入,DNA 呼吸,或 DNA 双螺旋结构的局部自发打开和关闭,与转录活性(例如转录因子结合)相关。
“DNA 呼吸特征与 DNABERT-2 基础模型的整合极大地增强了转录因子结合预测,”洛斯阿拉莫斯研究员 Manish Bhattarai 说。“我们将 DNA 代码片段作为模型的输入,并询问模型是否在许多细胞系中与转录因子结合。结果提高了特定基因位置与许多转录因子结合的预测概率。”
该团队在实验室最新的超级计算机 Venado 上运行深度学习模型,该计算机结合了中央处理单元和图形处理单元来驱动人工智能功能。深度学习模型的工作方式类似于大脑的神经网络,结合图像和文本并揭示复杂的模式以生成预测和见解。
为了训练该模型,该团队使用了 690 个实验结果的基因测序数据,涵盖 161 种不同的转录因子和 91 种人类细胞类型。他们发现 EPBDxDNABERT-2 显着提高了对 660 多种转录因子结合的预测(在一项关键指标中提高了 9.6%)。对体外数据集的进一步实验,取自实验受控环境,补充了自然数据集,或直接从活生物体(例如小鼠)研究中提取的数据。
研究小组发现,虽然仅 DNA 呼吸就可以几乎准确地估计转录活性,但多模式模型可以提取结合基序,即特定的 DNA 序列,转录因子结合——解释转录过程的关键因素。
Bhattarai 表示:“我们的多模态基础模型在多个不同数据集上的表现证明了其多功能性、稳健性和有效性。”“这个模型标志着计算基因组学的重大进步,为分析复杂的生物机制提供了复杂的工具。”
更多信息:Anowarul Kabir 等人,DNA 呼吸与深度学习基础模型的整合推进了人类转录因子的全基因组结合预测,核酸研究(2024)。DOI:10.1093/nar/gkae783
引文:新的人工智能模型提高了疾病相关基因组学的预测能力(2024 年,11 月 11 日)检索日期:2024 年 11 月 11 日来自 https://phys.org/news/2024-11-ai-power-genomics-disease.html
本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。