英语轻松读发新版了,欢迎下载、更新

AI模型解释了蛋白质中的代码,该代码告诉他们去哪里

2025-02-13 22:10:00 英文原文

作者:Greta Friar | Whitehead Institute

蛋白质是使我们的细胞运行的工作主场,并且我们的细胞中有成千上万种类型的蛋白质,每种蛋白质都执行专门功能。长期以来,研究人员知道蛋白质的结构决定了它可以做什么。最近,研究人员开始理解蛋白质的定位对其功能也至关重要。细胞充满了有助于组织其许多居民的隔室。这些空间还与装饰生物学教科书页面的众所周知的细胞器一起,还包括各种动态的无膜隔室,这些隔室将某些分子集中在一起以执行共享功能。因此,知道给定蛋白质的定位及其与谁共定位,可以更好地理解蛋白质及其在健康或患病细胞中的作用,但是研究人员缺乏一种系统的预测该信息的系统方法。

同时,已经对蛋白质结构进行了半个世纪以上的研究,最终在人工智能工具中达到了Alphafold,该工具可以从蛋白质的氨基酸代码中预测蛋白质结构。创建其结构。Alphafold和类似模型已成为研究中广泛使用的工具。

蛋白质还包含不会折叠成固定结构的氨基酸区域,但对于帮助蛋白质连接动态隔室很重要。麻省理工学院教授理查德·杨(Richard Young)及其同事想知道,这些区域中的代码是否可以用来预测蛋白质定位,就像其他区域用于预测结构一样。其他研究人员发现了一些蛋白质序列,这些蛋白质序列是为蛋白质定位编码的,一些蛋白质序列已开始开发用于蛋白质定位的预测模型。但是,研究人员不知道是否可以根据其序列来预测蛋白质的定位到任何动态隔室,也不知道它们具有与alphafold的可比工具来预测定位。 

现在,Young,也是怀特黑德生物学研究所的成员;年轻实验室博士后亨利·基尔戈尔(Henry Kilgore);MIT电气工程和计算机科学系AI和Health的工程杰出教授Regina Barzilay,计算机科学与人工智能实验室(CSAIL)的首席研究员;同事们建立了这样的模型,他们称其为Protgps。在发表的论文中2月6日在日记中科学,第一作者Kilgore和Barzilay Lab研究生Itamar Chinn,Peter Mikhael和Ilan Mitnikov,跨学科团队首次亮相他们的模型。研究人员表明,Protgps可以预测蛋白质将定位的12种已知类型的隔室中的哪种,以及与疾病相关的突变是否会改变该定位。此外,研究团队开发了一种生成算法,可以设计新型蛋白质以本地化为特定的隔间。

我的希望是,这是迈出一个强大平台的第一步,使研究蛋白质的人们能够进行研究,” Young说,这有助于我们了解人类如何发展成他们的复杂生物体是,突变如何破坏这些自然过程,以及如何产生治疗假设和设计药物以治疗细胞中的功能障碍。

研究人员还通过细胞中的实验测试验证了许多模型的预测。

Barzilay说,能够从计算设计一直到在实验室中尝试这些事情,这真的很兴奋。”AI领域中有很多令人兴奋的论文,但是99.9%的论文从未在实际系统中进行测试。多亏了我们与Young Lab的合作,我们能够测试,并真正了解了我们的算法的表现。

开发模型

研究人员对两批具有已知局部化的蛋白质进行了培训和测试。他们发现,它可以正确预测蛋白质最终以很高的精度最终出现。研究人员还测试了基于蛋白质内疾病相关的突变,Protgps如何预测蛋白质定位的变化。基于关联研究的基因及其相应蛋白质的序列及其相应蛋白质的序列变化的许多变化,但是突变导致疾病症状的方式尚不清楚。

弄清突变如何促进疾病的机制很重要,因为那时研究人员可以开发疗法来解决该机制,预防或治疗疾病。Young及其同事怀疑许多与疾病相关的突变可能通过改变蛋白质定位会导致疾病。例如,突变可以使蛋白质无法加入包含必需伴侣的隔间。

他们通过用疾病相关的突变喂养蛋白质超过200,000蛋白来检验该假设,然后要求它两者都预测这些突变蛋白将在哪里定位并测量其预测对给定蛋白的预测从正常版本变为突变版本。预测的很大变化表明本地化可能发生变化。

研究人员发现许多情况下,与疾病相关的突变似乎改变了蛋白质的定位。他们使用荧光在细胞中测试了20个示例,以比较细胞中正常蛋白的位置和突变版本的最终形式。实验证实了Protgps的预测。总的来说,这些发现支持研究人员怀疑错误的定位可能是一种疾病的不足机制,并证明了Protgps作为理解疾病和识别新的治疗途径的工具的价值。

Mitnikov说:'细胞是一个如此复杂的系统,具有许多组件和复杂的相互作用网络。”``非常有趣的是,通过这种方法,我们可以扰动系统,看到结果的结果,因此可以推动细胞中的机制发现,甚至基于此基础开发治疗剂。

研究人员希望其他人开始使用原质,就像他们使用Alphafold这样的预测结构模型,推进有关蛋白质功能,功能障碍和疾病的各种项目。

超越预测到新一代

研究人员对他们的预测模型的可能使用感到兴奋,但他们还希望自己的模型超越预测现有蛋白质的局部化,并允许他们设计全新的蛋白质。目的是使模型组成全新的氨基酸序列,该氨基酸序列在细胞中形成时,将定位在所需的位置。在这种情况下,生成一种新型蛋白质,实际上可以完成功能,将定位到特定的细胞室的功能非常困难。为了提高他们的成功模型的机会,研究人员将其算法限制为仅设计像自然界中发现的蛋白质一样。这是出于逻辑原因在药物设计中常用的一种方法。大自然已经有数十亿年的时间来弄清哪种蛋白质序列效果很好,哪些蛋白质序列效果不佳。

由于与年轻实验室的合作,机器学习团队能够测试其蛋白质发电机是否有效。该模型有良好的结果。在一轮中,它产生了10种旨在定位到核仁的蛋白质。当研究人员在细胞中测试这些蛋白质时,他们发现其中四个强烈定位在核仁中,而其他人也可能对该位置有轻微的偏见。

Mikhael说,我们实验室之间的合作对我们所有人都是如此。”我们学会了如何互相讲话,在我们的情况下,我们了解了很多有关细胞的工作方式,并且有机会通过实验测试我们的模型,我们能够弄清楚什么我们需要做才能真正使模型正常工作,然后使其正常工作。

能够以这种方式产生功能蛋白可以提高研究人员发展疗法的能力。例如,如果药物必须与定位在某个隔间内的靶标相互作用,那么研究人员可以使用该模型来设计药物来本地化。这应该使该药物更有效并减少副作用,因为该药物将花费更多的时间与其靶标互动,并且与其他分子相互作用的时间更少,从而导致靶向效果。

机器学习团队成员对利用他们从合作中学到的知识来设计新型蛋白质的前景与其他功能,这将扩大治疗设计和其他应用的可能性。

Chinn说,很多论文表明它们可以设计可以在细胞中表达的蛋白质,但并不是蛋白质具有特定功能。”与其他生成模型相比,我们实际上具有功能性蛋白质设计,并且成功率相对较大。这对我们来说真的很令人兴奋,我们想建立的东西。

所有参与的研究人员都将Protgps视为一个令人兴奋的开始。他们预计,他们的工具将用于更多地了解蛋白质功能中定位的作用以及在疾病中误定位的作用。此外,他们有兴趣将模型的本地化预测扩展到包括更多类型的隔室,测试更多治疗假设,并为治疗或其他应用设计越来越多的功能性蛋白质。

现在,我们知道这种定位的蛋白质代码已经存在,并且机器学习模型可以理解该代码,甚至可以使用其逻辑创建功能蛋白,这为许多潜在的研究和应用打开了大门,基尔戈尔说。

关于《AI模型解释了蛋白质中的代码,该代码告诉他们去哪里》的评论


暂无评论

发表评论

摘要

研究人员开发了一种称为Protgps的新AI模型,该模型可以根据其氨基酸序列预测细胞中蛋白质的位置。这补充了诸如Alphafold之类的现有模型,该模型可以预测蛋白质结构。Protgps可以准确预测到12种已知类型的隔室的定位,并检测由于疾病相关突变而导致的定位变化。该团队还创建了一种算法,用于设计针对特定细胞隔室的新蛋白质,初始测试显示出令人有希望的结果。这些进步可能有助于理解与错误定位和开发有针对性疗法有关的疾病。