英语轻松读发新版了,欢迎下载、更新

教授LLM读写DNA的诗歌迷|Quanta杂志

2025-02-05 16:02:26 英文原文

作者:By Ingrid Wickelgren

通过将DNA视为一种语言,Brian hie s“ Chatgpt for Genomes”可以拾取人类可以看到的模式,从而加速生物学设计。

EVO成功的公式原则上是基本的。该模型很大,具有70亿个变量,在计算机科学中被称为参数,并接受了大量数据的培训。它的目标很简单:预测DNA序列中的下一个碱基对。来自大型模型和一个简单的目标,复杂的特性出现。Hie说,这是一个非常有力的范式,在过去几年中已经出现了机器学习。”在该范式下,Evo获得了一个不可思议的诀窍,以分散与生命兼容的序列,并衍生出自然分子的有用变体。Evo甚至写了一个自己设计的整个基因组,尽管他说的不是可以在有机体中起作用的基因组,但无论如何还没有。

现在的生物设计非常手工。这是非常随机的,成功率非常低。我们希望通过机器学习来改善所有这些方面。

量子与Hie谈到了DNA和人类语言之间的相似之处,Evo可以做什么,以及编程中的诗歌。采访已被凝结和编辑,以清晰。

您首先对什么感兴趣:计算机,生物学或语言?

我有非常广泛的兴趣,我探索了很多职业道路。在我一生中的某一时刻,我想攻读博士学位。在英语文学中。在高中和大学,我学会了欣赏诗歌。我真的很喜欢的诗歌类型的歌词具有许多结构和宏伟的概念,并以非常有趣的方式使用语言。

在扫描十四行诗或识别结构良好的英语歌词中的结构的亲和力类似于想要开发使基因组或蛋白质序列更容易解释并揭示其隐藏结构的模型。这几乎就像对生物学序列的文学批评一样。这样,我仍然在做文学批评。

是什么让您认为DNA可以像一种语言一样对待?

DNA本身就像人类的自然语言一样。这是一系列离散的令牌,或构建块。我们将人类的自然语言纳入单词,字母或汉字。在生物学中,令牌可以对应于DNA碱基对或氨基酸[蛋白质的分子构建块]。

就像自然语言一样,DNA具有自然结构。序列不是随机的。自然语言的许多结构也是非正式的。这可能是模棱两可的,并且一直在改变。以同样的方式,DNA序列具有一定的歧义。在不同上下文中相同的顺序可能意味着不同的事物。

您如何对将大型语言模型应用于DNA感兴趣?

在2023年秋天,我目前的教师职位开始时就正确了。关于换工作的事情使人们想重新考虑事情。我和东京的朋友一起度假。我是喷射滞后的,所以我很早就醒了。由于其他所有人都睡着了,所以我独自一人走了很长一段路。我在考虑DNA语言建模。

分子生物学中的中央教条是一件非常美丽的事物。它指出DNA编码为RNA,该RNA编码为蛋白质。因此,如果您在DNA中训练模型,并且是一个很好的模型,则可以免费获得RNA和蛋白质语言建模,因为DNA和蛋白质序列之间存在直接对应关系。

您还可以训练基因组本身:基因,彼此相邻的基因组。当您训练蛋白质语言模型时,您基本上会采用整个基因组并切除所有代码蛋白质的部分,并单独训练所有这些小部分。但是您忽略了蛋白质所在的巨大遗传环境。在微生物基因组中,尤其是具有相关功能的蛋白质直接在基因组上彼此相邻,因此这些蛋白质编码区域在基因组问题上的顺序。您在蛋白质语言模型中丢失了这些信息。

我意识到,从蛋白质向下到DNA的更基本水平的训练模型可以扩大模型的功能。

您是如何训练Evo读取DNA的?

蛋白质和DNA语言模型之间的一个重要区别是该模型用于进行下一基准对预测的序列的长度,我们称之为上下文长度。上下文长度类似于一个或两个一个人一次可以看到的小说页。Evo接受了由许多基因组组成的小说的训练大肠杆菌仅基因组是200万至400万个碱基对,但最大背景时间为131,000个令牌。相比之下,原始的蛋白质语言模型的上下文长度为1,000个氨基酸。

这需要一些技术发展,因为长上下文长度会消耗大量的计算能力。随着上下文长度,这种功率要求二次增长,限制了chatgpt的原始版本。但是,当我们考虑EVO时,研究人员包括,包括斯坦福大学的一个团队已经找到了一种减少较长上下文长度所需的计算的方法。斯坦福实验室的一名学生帮助我们将这些进步应用于DNA模型。

EVO的训练数据集也很重要:它暴露于细菌,古细菌和病毒的270万基因组中。从我的蛋白质语言建模中,我了解到序列多样性很重要。它显示了生命的模型进化替代方法 - 表达同一想法的不同方式,该模型可以用来学习执行特定功能的蛋白质的通用规则。

我们于2023年12月开始培训EVO,这是我在开始实验室前几周。我们给了它不同的DNA提示,并要求它按顺序预测下一个令牌(在这种情况下是DNA碱基对)。一月份,我决定测试它是否有效。

您是如何测试的,它是如何测试的?

我给了它具有各种突变的蛋白质编码DNA序列:与典型基因序列不同的碱基对。任务是预测这些突变的进化可能性,即它们在自然界中存在的可能性。被认为的突变可能应保留或改善实验室中的蛋白质功能。不太可能的突变应与功能差有关。

EVO对功能没有任何明确的知识。它只知道过去进化使用了什么突变。此外,该模型仅在DNA上进行训练,而没有任何有关DNA匹配蛋白的部分的指示。因此,它必须弄清楚DNA如何代码为蛋白质,以及蛋白质在基因组上开始和停止的位置。

我们使用蛋白质功能的实验测试从模型中得分。我们发现,如果碱基对在EVO下具有很高的可能性,那么该碱基对可能会保留或改善蛋白质的功能。但是,如果该基对的可能性很小,那么将碱基对放入蛋白质序列中可能会破坏功能。

我们还将模型的结果与最先进的蛋白质语言模型的结果进行了比较。我们发现EVO与蛋白质模型的性能相匹配,尽管从未见过蛋白质序列。这是第一个迹象表明,也许我们正在做一些事情。

您还要求Evo做什么?

我们用它来生成DNA序列,就像chatgpt可以生成文本一样。我的一位学生布莱恩·康(Brian Kang)帮助我对DNA上的EVO模型进行了微调,该模型编码为蛋白质以及至少一个RNA分子。他们链接在一起,创建一个称为CRISPR-CA的复杂的复杂。CRISPR-CAS破坏DNA在特定的斑点中,这有助于细菌抗病。科学家将它们用于基因组编辑

在为CRISPR-CAS综合体训练了超过70,000个DNA自然序列的EVO之后,我们要求它在DNA代码中生成完整的系统。在其11个建议中,我们从公司订购了DNA序列,并使用它们在实验室中创建CRISPR-CAS复合体并测试其功能。

其中一个工作。我们认为这是一个非常成功的飞行员。在典型的蛋白质设计工作流程中,您很幸运能在每100个序列中找到一个工作蛋白。

成功序列的工作方式如何?

它和最先进的CAS系统一样。如果您有点sang,也许它的裂解速度更快[DNA链的切割]。

这是以前做过的吗?

这是一项非常复杂的任务。CAS酶为当前的蛋白质语言模型进行处理太长。另外,蛋白质模型无法产生RNA。

EVO产生的最长的DNA序列是什么? 

该模型从头开始自由产生了一百万个令牌,这是整个细菌基因组。如果您要求Chatgpt产生一百万个令牌文本,那么在某个时候,它将消失。会有一些语法结构,但不会产生高度

EVO的基因组也具有结构。它具有与天然基因组相似的基因密度,而蛋白质像天然蛋白一样折叠。但是,它缺少可能驱动生物体的东西,因为它缺乏许多我们知道对生物的生存至关重要的基因。为了产生一个连贯的基因组,该模型需要能够编辑其产品以纠正错误的能力,就像人类作者对更长的文本通过所做的那样。

EVO的其他局限性是什么?

这仅是开始。EVO仅对最简单生物,原核生物的基因组进行培训。我们想将其扩展到真核生物细胞具有核的动物,植物和真菌等生物。它们的基因组更加复杂。

EVO还只读取DNA的语言,而DNA只是决定生物体特征和表型的特征的一部分。环境也起着作用。因此,除了具有良好的基因型模型外,我们还希望建立一个非常好的环境模型及其与表型的联系。

我发现LLM聊天机器人很容易出错。EVO更准确吗?

使用Chatgpt,您希望它正确地完成事实。在生物学中,这些幻觉几乎可以是一个功能,而不是错误。如果一些疯狂的新序列在细胞中起作用,那么生物学家认为这是新颖的。

但是Evo确实会犯错。例如,它可能会从序列中预测蛋白质结构,当我们在实验室中制作蛋白质时,该序列被证明是错误的。尽管如此,在这样的任务中,人类几乎完全毫无价值。从头开始,没有人能写出会折叠成CRISPR-CAS复合体的DNA序列。

您在五到十年内看到这项技术在哪里?

我们将将生物设计方式的边界超出单个蛋白质分子的范围推向涉及许多蛋白质或与RNA或DNA结合的蛋白质的更复杂的系统。这就是EVO纸的信息。我们可能会设计一种合成途径,该途径产生具有治疗价值的小分子药物,或者从溢出物中降解塑料或油。

我还希望这些模型有助于生物发现。当您对大自然的新生物进行序列,您只会得到DNA。很难确定基因组的哪些部分与不同的功能相对应。如果模型可以学习噬菌体防御系统或生物合成途径的概念,它们将帮助我们注释并在测序数据中发现新的生物系统。该算法的语言流利,而人类则不是。

像EVO这样的模型会带来任何危险吗?

如果模型用于设计病毒,则可能可以将这些病毒用于邪恶目的。我们应该有某种方法来确保这些模型被永久使用。但是,生物技术的水平已经足以创造危险的事物。生物技术可以做的是保护我们免受危险事物的侵害。

大自然一直在创造致命的病毒。我认为,如果我们提高技术能力水平,它将对我们捍卫自己免受生物威胁的能力产生更大的影响,而不是创造新的威胁。

关于《教授LLM读写DNA的诗歌迷|Quanta杂志》的评论


暂无评论

发表评论

摘要

EVO作为专门针对DNA和遗传序列训练的先进语言模型,代表了生物技术能力的显着飞跃。这是其当前状态和潜在未来发展的摘要:###当前状态**成功:** - ** CRISPR-CAS复杂生成:** EVO在特定数据集上进行微调时从头开始成功生成功能性CRISPR-CAS复合物。 - **基因组的产生:**它可以产生整个细菌基因组,尽管与天然生物相比,功能方面有一定的局限性。**限制:** - **范围仅限于原核生物:**当前的培训仅着眼于简单的原核生物(例如细菌),将其扩展到更复杂的真核生物是未来的目标。 - **部分基因组:**产生的基因组缺乏生物存活的关键基因,表明需要先进的误差校正机制。###未来发展**范围的扩展:**1。**真核基因组:**扩展EVO的训练以包含真核生物,将使其能够处理更复杂的遗传系统。2。**多系​​统工程:**超越单个蛋白质,该模型可用于设计涉及多种相互作用组件(例如RNA-蛋白复合物)的合成途径。**增强功能:**1。**环境建模:**整合对影响表型的环境因素的复杂理解将有助于预测和设计不同条件下的生物体行为。2。**误差校正机制:**开发类似于人类编辑过程的机制,以纠正生成序列中的错误,从而提高了输出的可靠性。###潜在应用**生物设计:** - **合成途径:**创建用于生产治疗药物或降解塑料和油(例如污染物)的途径。 - **生物合成工程:**设计新的生物合成途径,以产生具有治疗潜力的新型化合物。**生物发现:** - **序列注释:**使用模型在新测序的基因组中识别功能,加速发现和注释过程。 - **发现新系统:**从测序数据中识别和理解以前未知的生物系统。###道德考虑**潜在危险:**1。**出于有害目的的滥用:**担心滥用有害病毒或其他生物工程威胁。2。**生物防御:**在增强进攻能力的同时,真正的好处可能在于提高我们防御生物威胁的能力。###缓解策略 - **监管和监督:**实施严格的监管框架和监督机构,以确保对此类技术的道德使用。 - **技术防御能力:**投资研究,以增强防御措施,以抵抗潜在的生物学威胁。总而言之,EVO代表了推进生物技术设计和发现的强大工具。但是,其开发和应用必须伴随着强大的道德准则和保障措施,以防止滥用并增强整体全球安全。