英语轻松读发新版了,欢迎下载、更新

有史以来最大的AI生物学模型按需写DNA

2025-02-19 16:09:36 英文原文

作者:Callaway, Ewen

Coloured scanning electron micrograph of cells of brewer's, or baker's, yeast (Saccharomyces cerevisiae).

真核生物(如酵母)的基因组用于训练EVO-2模型。学分:托马斯·迪林克(Thomas Deerinck),NCMIR/科学图书馆

科学家今天发布了他们所说的是有史以来最大的人工智慧(AI)生物学模型。

从人类到单细菌和古细菌的生命树的128,000个基因组进行了训练的模型,可以从头开始写整个染色体和小基因组。它也可以理解现有的DNA,包括与疾病有关的难以释放的非编码基因变异。

EVO-2由ARC Institute和Stanford University的研究人员共同开发,位于加利福尼亚州Palo Alto和Chip Maker NVIDIA,科学家可以通过Web界面使用,或者他们可以下载其免费的软件代码,数据和其他参数需要复制模型。

开发人员将EVO-2视为其他人可以适应自己用途的平台。我们非常期待科学家和工程师如何建立这家生物学的应用商店。新闻发布会宣布EVO-2发布。

他们对模型的阅读印象深刻,这在发布到ARC Institute网站,并提交给Biorxiv预印服务器。但是他们说,他们需要在得出坚定的结论之前就需要踢轮胎。

帕洛阿尔托(Palo Alto)斯坦福大学(Stanford University)的计算基因组学家Anshul Kundaje说,我们必须看到它如何在独立的基准中保持独立的基准。到目前为止,他对模型的工程印象深刻。

数万亿个字母

在过去的几年中,研究人员发展了越来越强大的蛋白质语言模型例如ESM-3模型由前Meta员工开发在对数百万蛋白序列进行训练之后,已被用来帮助预测蛋白质结构和设计全新的蛋白质包括基因编辑器和荧光分子。

与这些模型不同,EVO-2是对包含编码序列的基因组数据进行培训的,这些数据既包含编码序列,这些序列携带了制造蛋白质和非编码DNA的指令,这些DNA包括可以控制何时,何地,何处和方式的序列基因是活跃的。这EVO去年发行的第一版接受了80,000种细菌和古细菌的基因组的训练,称为原核生物以及它们的病毒和其他序列。

最新模型基于128,000个基因组,包括人类和其他动物,植物和其他真核生物的基因组。这些基因组总共包括9.3万亿个DNA字母。HSU说,基于吞噬数据和其他功能所需的计算能力,EVO-2是迄今已发布的最大生物AI模型。

Animated sequence from a video clip showing a demonstration of the Evo Designer interface in use.

学分:ARC Institute

与原核生物相比,真核基因组往往更长,更复杂:基因是由编码和非编码区域散布的片段制成的,而非编码的调节性DNA可以远离其控制的基因。为了应对这种复杂性,构建了EVO-2,以便它可以以100万个碱基对的DNA序列学习模式。

为了证明其具有复杂基因组的能力,HSU及其同事使用EVO-2来预测与乳腺癌有关的基因中先前研究的突变的影响BRCA1。HSU说,它在确定编码区域的变化是否会导致疾病时所做的几乎和最佳的生物AI模型一样。非编码突变的技术状态。未来,该模型可以帮助识别患者基因组的这些难以释放的变化。

研究人员还测试了模型的能力,可以破译复杂基因组的其他特征,包括羊毛猛mm。EVO-2代表了学习DNA调节语法的重要一步。

关于《有史以来最大的AI生物学模型按需写DNA》的评论


暂无评论

发表评论

摘要

科学家发布了EVO-2,这是对从人类到单细胞生物的128,000个基因组进行培训的最大生物学AI模型。能够生成整个染色体并理解现有的DNA,包括与疾病相关的非编码基因变体,EVO-2可以通过Web接口或可下载的软件访问。该模型是由ARC研究所,斯坦福大学和NVIDIA的研究人员开发的,可以预测遗传突变的影响并有助于鉴定引起疾病的患者基因组变化。在形成结论性意见之前,研究人员乐观但正在等待独立验证。

相关讨论