詹姆斯·加拉格尔健康与科学记者

盖蒂图片社
研究人员表示,谷歌 DeepMind 开发的人工智能模型可以改变我们对 DNA(构建和运行人体的完整配方)及其对疾病和药物发现的影响的理解。
该模型名为 AlphaGenome,可以帮助科学家发现为什么 DNA 中的细微差异会使我们面临高血压、痴呆和肥胖等疾病的风险。
它还可以极大地加速我们对遗传疾病和癌症的理解。
该模型的开发人员承认它并不完美,但专家将其描述为“一项令人难以置信的壮举”和“一个重大里程碑”。
DeepMind 研究工程师 Natasha Latysheva 表示:“我们将 AlphaGenome 视为了解基因组功能元件作用的工具,我们希望它能够加速我们对生命密码的基本理解。”
人类基因组由 30 亿个 DNA 代码字母组成,用字母 A、C、G 和 T 表示。
其中大约 2% 是编码身体生长和发挥功能所需的所有蛋白质的基因。剩下的 98% 不太为人所知,被标记为“黑暗基因组”。它在组织基因在体内的使用方式方面发挥着至关重要的作用,并且是发现许多与疾病相关的突变的地方。
AlphaGenome 可以一次分析一百万个字母的代码,帮助揭开“黑暗基因组”的面纱。
它可以预测基因在哪里,还可以预测“黑暗基因组”正在影响什么。例如,它如何影响基因表达(基因是否高度活跃或被抑制)和基因剪接(身体用来从单个基因制造不同蛋白质的工具)。
至关重要的是,该模型可以预测改变遗传密码中的单个字母所产生的影响。
Latysheva 表示,她对人工智能模型了解哪些突变导致疾病并帮助查明罕见遗传病病因的潜力感到“非常兴奋”。
她补充说,人工智能模型可以用来“为发现药物靶点并最终开发新药添加另一块拼图”。
最终,它还可以用于合成生物学以及可用于基因治疗的新 DNA 序列的设计。
AlphaGenome 已被描述在《自然》杂志上,但去年已可供非商业用途使用,此后已有 3,000 名科学家使用了该工具。
埃克塞特大学的加雷斯·霍克斯博士正在利用它来探索突变如何改变我们患肥胖症和糖尿病的风险。
对数万人的整个遗传密码进行测序的研究发现了与这些疾病相关的变异,但它们通常位于黑暗基因组中。
霍克斯告诉英国广播公司:“它们直接影响了我们并不真正理解的一些重要的生物学部分。”
使用 AlphaGenome 可以让研究人员快速预测这些变体的作用,以便在实验室中对其进行测试。
霍克斯说:“这些预测将有助于了解这些基因变异可能影响哪些生物过程,并可能导致药物开发。
“我不会说 AlphaGenome 解决了基因组的阴暗面,但这是一个巨大的飞跃。我真的很兴奋。”
癌症是人工智能模型可以加速研究的另一个领域。
AlphaGenome 已被用来预测哪些突变会加剧癌症,也是潜在的治疗目标,以及哪些突变是偶然的。
弗朗西斯·克里克研究所基因组学负责人罗伯特·戈德斯通博士表示,该模型是“基因组人工智能领域的一个重要里程碑”,这一突破是“一项令人难以置信的技术壮举”,因为它“能够仅根据 DNA 序列预测基因表达”。
Wellcome Sanger 研究所生成和合成基因组学负责人 Ben Lehner 教授表示,他们已经在超过 50 万次实验中测试了 AlphaGenome,并且表现非常好。
但他表示,这“远非完美”,还有很多工作要做。
莱纳教授说:“这是一个非常激动人心的时刻,英国处于世界领先地位的三个领域——基因组学、生物医学研究和人工智能——结合起来改变了生物学和医学。”
DeepMind 团队因其在 AlphaFold 上的工作而获得了 2024 年诺贝尔化学奖,AlphaFold 是一种预测体内蛋白质 3D 结构的人工智能系统。
谷歌 DeepMind 科学与战略计划副总裁 Pushmeet Kohli 表示:“我认为我们正处于科学进步新时代的开端,人工智能将实现许多不同的突破。”
AlphaGenome 不像大型语言模型(例如 ChatGPT)那样预测序列中的下一个单词。相反,它是一个“序列到功能模型”,着眼于文本中的变化如何影响最后的含义。
它是在人类和小鼠细胞实验的公开数据库上进行训练的。
人们普遍认为人工智能模型需要完善。它在某些领域不太准确,例如预测基因如何在长距离(超过 100,000 个代码字母之外)进行调控。
该团队还希望提高模型在不同组织中的准确性。例如,大脑中的神经元与跳动的心脏细胞具有相同的遗传密码,但根据遗传指令在每种细胞类型中使用的方式,每个神经元都有不同的属性。