
CRISPR的CHATGPT创建新的基因编辑工具
作者:Callaway, Ewen
真核生物(如酵母)的基因组用于训练EVO-2模型。学分:托马斯·迪林克(Thomas Deerinck),NCMIR/科学图书馆
科学家今天发布了他们所说的是有史以来最大的人工智慧(AI)生物学模型。
从人类到单细菌和古细菌的生命树的128,000个基因组进行了训练的模型,可以从头开始写整个染色体和小基因组。它也可以理解现有的DNA,包括与疾病有关的难以释放的非编码基因变异。
CRISPR的CHATGPT创建新的基因编辑工具
EVO-2由ARC Institute和Stanford University的研究人员共同开发,位于加利福尼亚州Palo Alto和Chip Maker NVIDIA,科学家可以通过Web界面使用,或者他们可以下载其免费的软件代码,数据和其他参数需要复制模型。
开发人员将EVO-2视为其他人可以适应自己用途的平台。我们非常期待科学家和工程师如何建立这家生物学的应用商店。新闻发布会宣布EVO-2发布。
他们对模型的阅读印象深刻,这在纸发布到ARC Institute网站,并提交给Biorxiv预印服务器。但是他们说,他们需要在得出坚定的结论之前就需要踢轮胎。
帕洛阿尔托(Palo Alto)斯坦福大学(Stanford University)的计算基因组学家Anshul Kundaje说,我们必须看到它如何在独立的基准中保持独立的基准。到目前为止,他对模型的工程印象深刻。
在过去的几年中,研究人员发展了越来越强大的蛋白质语言模型例如ESM-3模型由前Meta员工开发在对数百万蛋白序列进行训练之后,已被用来帮助预测蛋白质结构和设计全新的蛋白质包括基因编辑器和荧光分子。
AI梦见了一个新蛋白的暴风雪。他们中的任何一个实际上有效吗?
与这些模型不同,EVO-2是对包含编码序列的基因组数据进行培训的,这些数据既包含编码序列,这些序列携带了制造蛋白质和非编码DNA的指令,这些DNA包括可以控制何时,何地,何处和方式的序列基因是活跃的。这EVO去年发行的第一版接受了80,000种细菌和古细菌的基因组的训练,称为原核生物以及它们的病毒和其他序列。
最新模型基于128,000个基因组,包括人类和其他动物,植物和其他真核生物的基因组。这些基因组总共包括9.3万亿个DNA字母。HSU说,基于吞噬数据和其他功能所需的计算能力,EVO-2是迄今已发布的最大生物AI模型。
学分:ARC Institute
与原核生物相比,真核基因组往往更长,更复杂:基因是由编码和非编码区域散布的片段制成的,而非编码的调节性DNA可以远离其控制的基因。为了应对这种复杂性,构建了EVO-2,以便它可以以100万个碱基对的DNA序列学习模式。
为了证明其具有复杂基因组的能力,HSU及其同事使用EVO-2来预测与乳腺癌有关的基因中先前研究的突变的影响BRCA1。HSU说,它在确定编码区域的变化是否会导致疾病时所做的几乎和最佳的生物AI模型一样。非编码突变的技术状态。未来,该模型可以帮助识别患者基因组的这些难以释放的变化。
研究人员还测试了模型的能力,可以破译复杂基因组的其他特征,包括羊毛猛mm。EVO-2代表了学习DNA调节语法的重要一步。