生成式 AI 设计 DNA 序列来打开和关闭基因

2024-10-23 15:44:28 英文原文

这些 DNA 序列被称为顺式调控元件 (CRE),可以打开或关闭邻近的基因。

现在,耶鲁大学医学院(YSM)、杰克逊实验室以及麻省理工学院和哈佛大学布罗德研究所的研究人员开发了一种新的生成人工智能方法,可以设计前所未见的调控元件,精确控制基因的开启方式,

或在细胞中表达。人工智能设计的合成 DNA 只能开启体内特定类型细胞的基因。

研究人员在《DNA 活性计算优化》(CODA)中描述了这个人工智能平台。发表了一篇文章在日记中自然10月23日。

控制基因在某些类型细胞中的表达方式有一天可能会大大改善基因治疗。这种潜在的治愈方法有望改写引起疾病的突变,但需要更好的方法将疗法直接传递给携带疾病的细胞,例如,在帕金森病或帕金森病中失败的特定类型的神经元。携带艾滋病毒的免疫细胞。

CODA 是新设计的人工智能平台,有一天可以帮助以更有针对性的方式对患病细胞进行基因治疗,从而使治疗在身体的健康部位处于无效状态,否则可能会造成伤害。由于这些破坏性的脱靶效应,一些早期的实验性基因疗法未能进入临床应用。最终,CODA 的设计者希望利用该方法开发针对大脑疾病、代谢疾病和血液疾病的靶向基因疗法。

超越人类能力

“这个项目本质上提出了一个问题:“我们能学会阅读和编写这些监管元素的代码吗?”说史蒂文·赖利博士是 YSM 遗传学助理教授,也是该研究的资深作者之一。– 如果我们从语言的角度思考,这些元素的语法和句法我们很难理解。因此,我们尝试构建机器学习方法,可以学习比我们自己学习更复杂的代码。”

进化也许从来没有想过为阿尔茨海默病药物建立一个真正伟大的驱动力,但这并不意味着它不可能存在。

史蒂文·赖利博士

这种复杂的代码与我们基因的语言形成鲜明对比,我们的基因语言是用相当简单的密码编写的,并在几十年前被破解。基因序列中的每个三字母字符串都会翻译成不同的氨基酸,即蛋白质的组成部分。基因语言只有 64 个不同的三字母组合,并不难学。

但调控元件却并非如此,它们是近 99% 的人类基因组的一部分,由基因以外的 DNA 组成。这些调控序列似乎不遵循简单的代码,至少不是人类可以轻易识别的代码。构成这些元件的 DNA 序列的潜在组合空间是巨大的:对于平均大小的调节元件,不同 DNA 序列组合的可能数量比已知宇宙中的原子数量还要多,赖利说。

“世界上所有的计算机都无法搜索所有可能的序列组合,因此你必须找到一种聪明的方法来搜索它,”他说。

机器学习方法最近才出现

如此巨大的问题需要最近才通过深度学习(研究人员用来生成新 DNA 序列的人工智能形式)提供的计算方法。与 DALL-E 和 ChatGPT 等知名工具背后的生成式 AI 方法类似,CODA 可以根据其训练数据库创建新的 CRE。

该研究的共同高级作者、博德研究所核心成员、哈佛大学教授 Pardis Sabeti 博士表示,新技术具有非凡的潜力。“通过将机器学习和分子生物学应用于 CRE 工作时间和地点的逻辑,我们可以利用生成人工智能的知识来构建以新的实验方式调节基因表达的工具,也许有一天,在治疗上,”Sabeti 说。

这项研究涉及复杂的工作,接下来还会有更多的工作。“将计算模型与大规模实验方法相结合是一种强大的策略,”杰克逊实验室副教授、该研究的共同高级作者 Ryan Tewhey 博士说。– 然而,模型的好坏取决于它们所学习的数据。通过验证结果,我们可以快速确定可以改进的地方。”

科学家们根据自然发生的调控元件的数据训练了他们的人工智能模型 CODA,这样它就可以迭代已经起作用的 DNA 序列,而不是对每个可能的序列进行排序。他们使用了实验室培养的人类血液、肝脏和脑细胞中超过 775,000 种不同调节元件的活性数据。调控元件可以决定基因是否开启或关闭,或者开启或关闭的程度,就像我们基因的分子调节旋钮一样。这些元素本身通常只在特定的细胞类型中活跃,例如肝细胞,这意味着它们影响的基因只会在那种细胞中被激活。

精确定位特定靶细胞

科学家们在这三种细胞中测试了人工智能设计的调控元件,发现在许多情况下,合成元件实际上比任何天然存在的序列对给定细胞类型更具特异性。然后,他们在活体斑马鱼和小鼠中测试了这些合成元素的子集,发现这些序列也可以在活体动物的特定细胞类型中开启测试基因。在一个案例中,人工智能设计的调节元件仅在小鼠大脑中非常特定的细胞层中打开报告基因,尽管该报告基因被传递到动物体内的各处。

“CODA 设计的序列如何有效地实现细胞类型特异性给我们留下了深刻的印象,”杰克逊实验室的计算科学家、该论文的共同第一作者 Rodrigo Castro 博士说。

接下来,研究人员计划使用不同种类的细胞来开发针对更多细胞类型的调控元件。他们还计划将人工智能设计的元素与基因治疗所需的其他技术相结合,从某些大脑、新陈代谢或血液疾病开始。赖利说,理论上,这种方法可以用于任何类型的遗传疾病。

该研究的共同第一作者、博德研究所 Sabeti 实验室的博士后 Sager Gosai 博士表示,作为治疗疾病的手段,这种方法可能会超越人类进化。Gosai 说:“天然 CRE 虽然数量众多,但只代表了可能遗传元件的一小部分,并且其功能受到自然选择的限制。”

赖利同意了。

“对于您可能希望监管要素完成的许多不同的可能事情,有很多潜在的解决方案,”赖利说。“进化也许从来没有想过为阿尔茨海默病药物建立一个真正伟大的驱动力,但这并不意味着它不能存在。”

----

这项工作得到了霍华德休斯医学研究所和美国国立卫生研究院赠款 UM1HG009435、R00HG010669、R01HG012872 和 R35HG011329 的支持。

关于《生成式 AI 设计 DNA 序列来打开和关闭基因》的评论


暂无评论

发表评论

摘要

我们的基因组中隐藏着微小的序列,它们具有控制附近基因的巨大能力。人工智能设计的合成 DNA 只能开启体内特定类型细胞的基因。通过将机器学习和分子生物学应用于 CRE 工作时间和地点的逻辑,我们可以利用生成人工智能的知识来构建工具,以实验性的新方式调节基因表达,也许有一天,在治疗上,”Sabeti 说。CODA 设计的序列如何有效地实现细胞类型特异性给我们留下了深刻的印象,”杰克逊实验室的计算科学家、该论文的共同第一作者 Rodrigo Castro 博士说。天然 CRE 虽然丰富,但只代表了可能的遗传元素的一小部分,并且其功能受到自然选择的限制,”Gosai 说。我们的基因组中隐藏着微小的序列,它们具有控制附近基因的巨大能力。