科学
- 出版
- 作者
引入了一个新的,统一的DNA序列模型,该模型推进了调节性变异效应预测的发展,并有望为现在通过API提供的基因组功能提供新的启示。
基因组是我们的细胞说明手册。这是一组完整的DNA集,它几乎指导生物体的每个部分,从外观和功能到生长和繁殖。基因组的DNA序列的微小变化会改变生物对环境的反应或对疾病的敏感性。但是,在分子层读取基因组的指示是如何解读的,以及当发生小的DNA变异时会发生什么 - 仍然是生物学最大的奥秘之一。
今天,我们介绍字母内组,一种新的人工智能(AI)工具,可以更全面,准确地预测人DNA序列中的单个变体或突变如何影响调节基因的广泛生物学过程。除其他因素外,通过技术进步启用了这一点,从而使模型可以处理长的DNA序列和输出高分辨率预测。
为了推进科学研究,我们可以通过我们字母型API进行非商业研究,并计划将来发布该模型。
我们认为,字母组合可以成为科学界的宝贵资源,帮助科学家更好地了解基因组功能,疾病生物学,并最终推动新的生物学发现和新疗法的发展。
字母组合的工作原理
我们的字母组模型采用了长的DNA序列,作为多达100万个字母的输入,也称为碱基对,并预测了成千上万的分子特性表征其调节活性。它还可以通过将突变序列的预测与未分解的序列进行比较。
预测的特性包括基因从哪里开始以及它们以不同的细胞类型和组织结束的位置,它们被剪接的位置,产生的RNA量以及哪些DNA碱基可访问,彼此接近或受某些蛋白质的约束。培训数据来自包括编码,,,,GTEX,,,,4D核心和fantom5,实验测量了这些特性,涵盖了数百种人类和小鼠细胞类型和组织中基因调节的重要方式。
动画显示字母元素以100万个DNA字母为输入,并预测不同组织和细胞类型的分子特性。
字母组体系结构使用卷积层最初检测基因组序列中的简短模式,变压器以在序列中的所有位置上传达信息,以及最终的一系列层以将检测到的模式转化为不同方式的预测。在训练过程中,该计算分布在单个序列的多个互连张量处理单元(TPU)上。
该模型以我们以前的基因组学模型为基础enformer并且是补充的字母敏感,专门针对蛋白质编码区域内变体的影响进行分类。这些区域覆盖了基因组的2%。其余的98%(称为非编码区域)对于编排基因活性至关重要,并且包含许多与疾病相关的变体。字母组合提供了一种新的观点,用于解释这些宽敞的序列及其内部的变体。
字母的独特特征
与现有的DNA序列模型相比,字母型具有多种独特的功能:
高分辨率的长序列封闭式
我们的模型分析多达100万个DNA字母,并通过单个字母的分辨率进行预测。长序列环境对于覆盖从遥远的基因调节基因的区域很重要,基础分辨率对于捕获细粒生物学细节很重要。
先前的模型必须权衡序列的长度和分辨率,这限制了他们可以共同模型并准确预测的方式范围。我们的技术进步解决了这一局限性,而没有显着增加培训资源 - 培训单个字母组模型(无蒸馏)花费了四个小时,需要一半用于培训我们原始的Enformer模型的计算预算。
全面的多模式预测
通过解锁长输入序列的高分辨率预测,字母型可以预测最多样化的方式。这样一来,字母组成为科学家提供了有关基因调节的复杂步骤的更全面的信息。
有效的变体评分
除了预测各种分子特性范围外,字母组还可以在一秒钟内有效评分遗传变异对所有这些特性的影响。它通过将突变序列与未分离的预测进行对比的预测来做到这一点,并有效地总结了使用不同方法的不同方法的对比度。
新颖的剪接结建模
许多罕见的遗传疾病,例如脊柱肌肉萎缩和某些形式的囊性纤维化,可能是由RNA剪接中的错误引起的 - 去除RNA分子的一部分或剪接的过程,其余末端重新加入。直接从序列直接从序列中明确对这些连接的位置和表达水平进行明确模拟,从而提供了有关遗传变异对RNA剪接的后果的更深入的见解。
跨基准的最先进的性能
字母组在广泛的基因组预测基准中实现最先进的性能,例如预测DNA分子的哪些部分将密切接近,遗传变异是否会增加基因的表达或降低基因的表达,或者它是否会改变基因的剪接模式。
条形图与每个类别中当前最佳方法的结果相比,比较了选定的DNA序列和变异效应任务的字母相对改进。
当产生单个DNA序列的预测时,字母元组在24个评估中的22个比最好的外部模型优于最佳外部模型。并且在预测变体的调节作用时,它在26个评估中的24个评估中匹配或超过了表现最佳的外部模型。
该比较包括专门用于各个任务的模型。字母组合是唯一可以共同预测所有评估方式的模型,突出了其一般性。阅读更多信息我们的预印本。
统一模型的好处
字母元组的通用性使科学家可以通过单个API调用同时探索变体对多种模式的影响。这意味着科学家可以更快地生成和检验假设,而无需使用多种模型来研究不同的模式。
此外,字母组的强劲性能表明,在基因调节的背景下,它已经学会了DNA序列的相对一般表示。这使其成为更广泛社区的坚实基础。该模型完全发布后,科学家将能够在自己的数据集中对其进行调整并进行微调,以更好地解决他们独特的研究问题。
最后,这种方法为未来提供了灵活,可扩展的架构。通过扩展训练数据,可以扩展字母元素的功能以产生更好的性能,覆盖更多的物种,或包括其他方式,以使模型更加全面。
这是该领域的里程碑。我们首次有一个单一模型,该模型可以在整个基因组任务中统一远程上下文,基础级别的精度和最先进的性能。
Caleb Lareau博士,纪念Sloan Kettering癌症中心
强大的研究工具
字母组合的预测能力可以帮助几种研究途径:
- 疾病的理解:通过更准确地预测遗传破坏,字母型可以帮助研究人员更精确地指出疾病的潜在原因,并更好地解释与某些特征相关的变体的功能影响,从而有可能发现新的治疗靶标。我们认为该模型特别适合研究具有潜在效果的稀有变体,例如引起罕见的孟德尔疾病的变体。
- 合成生物学:它的预测可用于指导具有特定调节功能的合成DNA的设计,例如,仅激活神经细胞中的基因而不是肌肉细胞。
- 基本研究:它可以通过协助绘制其关键功能元素并定义其角色,从而确定调节特定细胞类型功能的最重要的DNA指令来加速我们对基因组的理解。
例如,我们使用字母组来研究与癌症相关突变的潜在机制。在现有研究T细胞急性淋巴细胞白血病(T-All)患者的研究研究人员在基因组中的特定位置观察到突变。使用字母组合,我们预测突变将激活附近的基因称为tal1通过引入MYB DNA结合基序,该基序复制了已知的疾病机制,并强调了字母型将特定的非编码变体与疾病基因联系起来的能力。
字母组合将成为该领域的强大工具。确定不同非编码变体的相关性可能非常具有挑战性,尤其是在大规模上。该工具将提供至关重要的难题,使我们能够建立更好的联系来了解诸如癌症之类的疾病。
伦敦大学学院马克·曼苏尔教授
当前限制
字母组合标志着向前迈出的重要一步,但要确认其当前的局限性很重要。
像其他基于序列的模型一样,准确地捕获非常遥远的调节元素的影响,例如超过100,000个DNA字母,仍然是一个持续的挑战。未来工作的另一个优先事项是进一步提高模型捕获细胞和组织特异性模式的能力。
我们没有为个人基因组预测设计或验证字母组,这是AI模型的已知挑战。取而代之的是,我们更多地专注于表征各个遗传变异的表现。虽然字母组可以预测分子结果,但它并不能全面了解遗传变异如何导致复杂的性状或疾病。这些通常涉及更广泛的生物学过程,例如发育和环境因素,这些过程超出了我们模型的直接范围。
我们继续改善模型并收集反馈,以帮助我们解决这些差距。
使社区能够解锁字母肌的潜力
现在可以通过我们字母型API。请注意,我们的模型的预测仅用于研究用途,并且没有用于直接临床目的的设计或验证。
邀请全球研究人员与潜在的字母类用例取得联系,并通过该问题提出问题或通过社区论坛。
我们希望字母组合将成为更好地了解基因组的重要工具,我们致力于与学术界,工业和政府组织的外部专家一起工作,以确保Alphagenome的益处尽可能多。
加上更广泛的科学界的集体努力,我们希望它能加深我们对DNA序列中编码的复杂细胞过程以及变体的影响的理解,并推动基因组学和医疗保健方面令人兴奋的新发现。
了解有关字母组合的更多信息
致谢
我们要感谢Juanita Bawagan,Arielle Bier,Stephanie Booth,Irina Andronic,Armin Senoner,Dhavanthi Hariharan,Rob Ashley,Agata Laydon和Kathryn tunyasuvunakool在文本和人物方面提供了帮助。
This work was done thanks to the contributions of the AlphaGenome co-authors: Žiga Avsec, Natasha Latysheva, Jun Cheng, Guido Novati, Kyle R. Taylor, Tom Ward, Clare Bycroft, Lauren Nicolaisen, Eirini Arvaniti, Joshua Pan, Raina Thomas, Vincent Dutordoir, Matteo Perino, Soham De,亚历山大·卡洛鲁斯(Alexander Karollus),亚当·盖佐索(Adam Gayoso),托比·萨尔格(Toby Sargeant),安妮·莫特拉姆(Anne Mottram),莱洪(Lai Hong Wong),帕沃·德罗特(PavolDroté),亚当·科西奥雷克(Adam Kosiorek),安德鲁·高级(Andrew Kosiorek),安德鲁(Andrew)高级,理查德·坦本(Richard Tanburn),泰勒·苹果(Taylor Applebaum),Souradeep Basu,Demis hassabis和Pushmemeet Kohli。
We would also like to thank Dhavanthi Hariharan, Charlie Taylor, Ottavia Bertolli, Yannis Assael, Alex Botev, Anna Trostanetski, Lucas Tenório, Victoria Johnston, Richard Green, Kathryn Tunyasuvunakool, Molly Beck, Uchechi Okereke, Rachael Tremlett, Sarah Chakera, Ibrahim I.Taskiran,Andreea-AlexandraMuå的At,Raiyan Khan,Ren Yi和更大的Google DeepMind团队提供了支持,帮助和反馈。