2024-11-04 11:04:55 · 英文原文

仍然挑战人工智能的五个蛋白质设计问题

作者：Reardon, Sara

Alena Khmelinskaia 希望设计定制蛋白质就像点餐一样简单。她说，想象一下自动售货机，任何研究人员都可以用它来指定他们想要的蛋白质的功能、大小、位置、合作伙伴和其他特征。“理想情况下，你会得到可以同时完成所有这些事情的完美设计，”德国慕尼黑路德维希马克西米利安大学的生物物理化学家赫梅林斯卡亚 (Khmelinskaia) 说。

就目前而言，这只是一个梦想。但计算蛋白质设计和机器学习的进步使其比以往任何时候都更接近现实。

直到几年前，研究人员通过将蛋白质克隆到细菌或酵母中来改变蛋白质，并诱导微生物突变，直到它们产生所需的产物。科学家还可以通过故意改变其氨基酸序列来手动设计蛋白质，但这是一个费力的过程，可能会导致其错误折叠或根本阻止细胞产生它。

人工智能发明了一系列新蛋白质。它们中的任何一个真的有效吗？

机器学习算法彻底改变了游戏规则。研究人员可以使用人工智能 (AI) 驱动的工具在笔记本电脑上生成新的蛋白质结构，例如射频扩散和色度，它们接受了蛋白质数据库（PDB）中数十万个结构的训练。他们可以使用诸如以下的算法来识别与该结构相匹配的序列蛋白质MPNN。玫瑰TTA折叠和阿尔法折叠，它根据序列计算结构，可以预测新蛋白质是否可能正确折叠。只有这样，研究人员才需要合成物理蛋白质并测试它是否按预期发挥作用。

在很多情况下，确实如此。“一旦人们看到实验数据，他们就会知道这个东西可以发挥作用，”赫梅林斯卡亚谈到人工智能蛋白质设计时说道。“人们对一切的可能性感到兴奋。”今年的诺贝尔化学奖委员会一致认为：AlphaFold 和其他预测或设计蛋白质结构的程序为其开发人员赢得了 2024 年奖项。“我们现在可以预测蛋白质结构并设计我们自己的蛋白质，这为人类带来了最大的利益，”公告中写道。

尽管如此，最大的好处可能尚未到来。自然与专家讨论了蛋白质设计面临的最大挑战以及如何克服这些挑战。他们是这么说的。

构建可靠的粘合剂

蛋白质设计者面临的早期挑战之一是预测蛋白质如何相互结合——这是制药行业的一个主要目标，因为给定蛋白质的“结合剂”可以作为激活或抑制疾病途径的药物。生成式人工智能程序，例如 RFdiffusion 和阿尔法Proteo计算蛋白质设计先驱、西雅图华盛顿大学 2024 年诺贝尔化学奖获得者 David Baker 表示，“我们的研究使这项任务变得简单”，他的团队开发了 RFdiffusion 和其他蛋白质设计工具。“例如，如果您想要靶向某些癌症蛋白，并且您想要它的粘合剂，我们开发的方法通常会为您提供解决该问题的方法，”他说。

一些蛋白质，例如分布在免疫细胞表面的跨膜分子，仍然难以破解。但对于大多数蛋白质来说，生成式人工智能软件可以生成像手一样精确包裹目标的结合物。例如，2023 年，贝克和他的同事使用射频扩散技术创建了传感器蛋白，当它们附着在特定的肽激素上时，传感器蛋白就会发光¹。

化学诺贝尔奖颁给了预测蛋白质结构的 AlphaFold AI 的开发者

蛋白质-蛋白质结合算法之所以成功，是因为它们的语言很简单：所有天然蛋白质都由相同的 20 个氨基酸组成。位于萨默维尔的Generate Biomedicines公司的计算机科学家John Ingraham表示，PDB中有数十万个结构和蛋白质之间的相互作用，“这有点像机器学习的理想案例”位于马萨诸塞州，该公司使用人工智能来设计疗法。像他这样的团队一直在使用人工智能工具来设计大型的简单结合蛋白库，希望将它们应用于研究问题。

但人工智能需要训练的数据越少，粘合剂的可靠性就越低，与药物和其他小分子结合的蛋白质就是这种情况。许多制药公司都有自己的小分子结构及其与蛋白质相互作用的数据库，但这些都是严格保密的秘密。伦敦 Google DeepMind 的计算生物学家 Jue Wang 表示，现有的公共数据并不总是有很好的注释，可用的结构往往只代表少数分子类别。“通过对此进行训练的模型，你可能不一定能学到有关化学的良好一般规则，”他说。

今年早些时候，DeepMind发布AlphaFold3是该软件的最新版本，它可以预测与小分子的结合如何影响蛋白质的形状。“对于蛋白质与其他分子类型的相互作用，与现有的预测方法相比，我们发现至少有 50% 的改进，对于一些重要的相互作用类别，我们的预测精度提高了一倍，”该公司表示。

但贝克表示，这一挑战尚未完全解决。例如，仅仅因为某些东西结合得很好并不意味着它会按预期工作。Khmelinskaia 说，结合蛋白可以激活或阻止其目标，但 AlphaFold 等程序不一定能区分出区别。（她指出，一些算法确实包含了函数，包括ESM3。该软件由纽约市一家名为 EvolutionaryScale 的公司开发，接受了 27 亿个蛋白质序列、结构和功能的训练。）

Alena Khmelinskaia is seen looking at her computer — Alena Khmelinskaia 正在机器学习的帮助下开发中空纳米颗粒。图片来源：Bhoomika Basu Mallik

生成式人工智能系统还有其他局限性，包括倾向于“产生幻觉”自然界中不存在的蛋白质结构。纽约市哥伦比亚大学的计算生物学家 Mohammed AlQuraishi 表示，人工智能“总是试图取悦他人”。“它从来不会说，‘不，这是不可能的’。”

英格拉汉姆说，更好地了解生物物理学可能会有所帮助，但更多更好的关于蛋白质如何与分子结合的数据也会有所帮助。他的公司正在通过暴力来解决这个问题，尽可能多地使用蛋白质相互作用和功能的数据，并将其与模型生成的设计的高通量数据相结合。“我们正在努力寻找通用解决方案，”他说，“然后尽可能多地利用蛋白质信息。”

新催化剂

科学家们对计算工具将产生具有全新功能的酶寄予厚望：例如，可以清除大气中二氧化碳的催化剂，或者有效分解环境塑料的酶。合乎逻辑的起点是具有类似功能的天然酶。例如，一种破坏氢-硅键的酶可能会形成一种破坏碳-硅键的人工酶的支架。

但相似的蛋白质形状并不一定等同于相似的功能，而且看起来毫无相似之处的酶可以执行相同的任务。AlQuraishi 说，弄清楚这些联系以及如何重新创建功能是蛋白质设计中的一个主要挑战。“我们不讲功能，我们讲结构。”

此外，天然酶不一定是新的预期活动的理想起点。马萨诸塞州波士顿哈佛医学院的系统生物学家 Debora Marks 将酶的重新利用比作在城市现有的陈旧布局上建造现代化的道路系统。“如果你可以重新开始，你就不一定会这样做，”她说。

也就是说，天然酶的生物物理学可以告诉我们从头马克斯说：“大自然已经为你进行了数十亿次进化实验。”通常，研究人员通过分析酶的哪些部分在物种之间的相似程度来确定它们是重要的。进化上保守的序列通常具有相似的结构，而不同的序列可能只是减慢酶速度的垃圾。

AlphaFold 和 AI 蛋白质折叠革命的下一步是什么

但英格拉汉姆说，哪些部分重要并不总是显而易见的。例如，酶一侧看似无用的氨基酸链可能会影响蛋白质与其他分子结合的紧密程度或其在构象状态之间翻转的能力。

一些研究人员正在开发寻找这些有用部分的方法。在 8 月份的预印本中，贝克和他的同事使用射频扩散创建了一组称为水解酶的酶，它利用水通过多步骤过程来打破化学键²。研究人员利用机器学习分析了酶的哪些部分或基序在每个步骤中都处于活跃状态。然后，他们复制了这些图案，并要求 RFdiffusion 围绕它们构建全新的蛋白质。当研究人员测试了其中 20 种设计时，他们发现其中两种能够以新的方式水解其基材。“这一直是一个目标，现在已经解决了，”王说。

不过，首尔国立大学计算生物学家马丁·斯坦尼格警告说，将活性位点转移到新的蛋白质环境中可能会很棘手。如果没有蛋白质的其余部分来稳定结构或执行研究人员尚未确定的功能，一个孤立的基序可能会与其目标结合并且永远不会释放。斯坦格解释说，蛋白质不是静态物体，而是动态的。“每当动态出现时，我们都不太擅长对此进行建模。”

构象变化

蛋白质通常不只有一种形状；它们打开、关闭、扭曲和弯曲。这些构象的变化取决于温度、pH 值、化学环境以及它们是否与其他分子结合等因素。

然而，当研究人员试图通过实验解决蛋白质的结构时，他们往往只能看到最稳定的构象，这不一定是蛋白质活跃时的形式。“我们给它们拍了这些快照，但它们是摇摆不定的，”马萨诸塞州剑桥市微软研究院的机器学习科学家凯文·杨 (Kevin Yang) 说。他说，为了真正了解蛋白质的工作原理，研究人员需要了解其潜在运动和构象的全部范围（不一定在 PDB 中编目的替代形式）。

即使对于超级计算机来说，计算蛋白质可能移动的所有方式也是极其困难的。含有 100 个氨基酸的蛋白质（按照蛋白质标准来看很小）可以假设至少有 3 个氨基酸100^{加州大学旧金山分校的生物工程师 Tanja Kortemme 说，这可能是一种构象。}“我们对物理学的理解相当不错，但将其纳入其中却受到我们需要计算的可能性数量的限制。”

David Baker is seen posing with a 3D-printed protein — 蛋白质设计先驱大卫·贝克 (David Baker) 在宣布将分享 2024 年诺贝尔化学奖当天。图片来源：扎克·加西亚/华盛顿大学医学院

机器学习可以帮助缩小范围，微软和其他公司正在开发方法来加快寻找蛋白质构象所需的计算速度。但人工智能模型因缺乏良好的训练数据而受到限制，王说：“基本事实实际上通常不存在，所以你怎么知道你已经得到了正确的答案？”

Kortemme 表示，该领域正在通过设计大型蛋白质库（天然的和合成的）并对它们进行突变以揭示其动态来解决这个问题。例如，她、贝克和其他人正在研究可以通过添加某些结合伴侣在两种构象之间手动切换的蛋白质³。这种设计蛋白不仅可以帮助训练人工智能模型，还可以作为更复杂的分子机器的构建模块，例如将化学能转化为机械能以进行细胞工作的酶。

其他团队已经开发了算法（例如AF集群）为他们的预测注入一定程度的随机性，以探索替代构象。但斯坦内格说，这些方法是否适用于各种蛋白质类别仍不清楚。

复杂的创作

酶并不是研究人员关心的唯一蛋白质类别。新的蛋白质也可能被证明可用作构建模块，例如通过自组装成将货物带入细胞的结构，产生物理力，或在阿尔茨海默氏症等疾病中展开错误折叠的蛋白质。

这些复杂结构的计算设计已经产生了影响。韩国和英国分别于 2022 年和 2023 年批准紧急使用 COVID-19 疫苗，这是第一个由计算设计的蛋白质制成的医疗产品。该疫苗被称为 SKYCovione，是一种含有两种蛋白质成分的纳米颗粒，可引发针对病毒 SARS-CoV-2 刺突蛋白的免疫反应。Khmelinskaia 表示，在临床试验中，SKYCovione 产生的抗体水平是商业疫苗的三倍，其成功表明计算蛋白质设计已经为现实世界做好了准备。“现在确实有可能开始针对许多以前不可能实现的有趣途径，”她说。

人工智能推动蛋白质折叠预测

赫梅林斯卡亚的实验室正在使用机器学习算法来开发中空纳米颗粒，除其他外，这种纳米颗粒可以将药物或毒素携带到细胞中或隔离不需要的分子。她说，这需要了解设计的蛋白质构象动力学，因为粒子及其有效负载需要能够穿过细胞膜，然后打开（或关闭）。

但这只是其中一项功能。对于细菌鞭毛等更复杂的结构，机器学习只能做这么多——只是没有足够多的易于理解的例子可供参考。“如果我们有 10 万或一百万个不同的分子机器，也许我们可以训练生成式人工智能方法从头开始生成机器，但目前还没有，”贝克说。

这意味着人类研究人员需要考虑构成分子机器的组件（例如电机，或者沿着另一种蛋白质“行走”的蛋白质），并使用设计工具来创建这些结构一一封锁。此类组件可能包括分子开关、轮子和轴，或仅在特定条件下运行的“逻辑门”系统。“您不需要每次制造复杂机器时都重新发明轮子，”Kortemme 解释道。她的实验室正在设计可以整合到合成信号转导级联中的细胞信号分子。

王说，正是在这些部分的巧妙重组中，人类的聪明才智才会脱颖而出。“我们开始用蛋白质制造螺丝、螺栓、杠杆和滑轮，”他说。– 但是你要使用那个滑轮做什么呢？这是最有趣和最具挑战性的方面。”

从错误中学习

尽管赫梅林斯卡亚拥有自动售货机视觉，但即使是最好的预测算法也距离一次性创造出准确的蛋白质有一定距离。“过去 99.99% 的情况下，它都不起作用，”AlQuraishi 说。“现在，它更像是只在 99% 的情况下失败。”

自然科技中心

斯坦内格说，这在一定程度上是物流问题。计算研究人员可以一遍又一遍地运行他们的算法，直到找到看起来可行的算法，而像他自己这样的算法设计团队“大约每三四个月就会有新的创新”。斯坦格估计，在生物系统中验证设计的蛋白质可能需要两年的时间，到那时软件已经继续前进。

这种不匹配意味着算法很少有机会从错误中吸取教训。研究人员往往不会发表负面结果，即使这些失败产生了潜在有用的信息，例如蛋白质的细胞毒性或在某些条件下的稳定性。除非科学资助模式发生根本性变化来激励此类披露，否则研究人员必须发挥创造力。“建立一支能够同时涵盖所有这些方面的团队极具挑战性，”Khmelinskaia 解释道，他指的是蛋白质设计研究的工作台和计算方面。所以，合作是必须的。

“我们正处于这个阶段，计算机资源和数据都已准备就绪，这就是它成为如此受欢迎的领域的原因，”杨说。“一起工作的人越多，进步就越快。”

关于《仍然挑战人工智能的五个蛋白质设计问题》的评论

暂无评论

发表评论

摘要

本文讨论了计算蛋白质设计的最新进展，重点介绍了人工智能 (AI) 如何彻底改变蛋白质结构和功能的预测。以下是文本中的要点：1. **计算设计的进步**：- 像 Elizabeth Tsai 这样的研究人员正在使用机器学习来预测蛋白质如何折叠成其活性形状。- 蛋白质可以设计为具有特定的特性，例如通过添加某些结合配偶体在两种构象之间切换的能力。2. **挑战和限制**：- 由于缺乏多样化的数据，现有的算法在应用于不同的蛋白质类别时常常会遇到困难。- 设计像酶这样的复杂分子机器需要了解当前人工智能模型可能无法完全捕获的构象动力学。3. **实际应用**：- 第一个由计算设计的蛋白质制成的医疗产品 SKYCovione（一种 COVID-19 疫苗）已获准在韩国和英国使用。- 研究人员正在探索可以将药物或毒素携带到细胞中或隔离不需要的分子的纳米颗粒。4. **构建复杂的分子机器**：- 设计细菌鞭毛等复杂结构需要人类的聪明才智和计算工具的结合。- 分子开关、轮子、轴和逻辑门等组件正在被创建以形成复杂的蛋白质机器。5. **从失败中学习**：- 该领域在物流方面举步维艰；尽管进行了大量的计算机模拟测试，但算法仍然经常失败。- 阴性结果可以提供有价值的信息，但很少发表。- 计算科学家和实验学家之间的合作对于进步至关重要。6. **未来方向**：- 研究人员强调需要弥合计算预测和生物验证之间的差距。- 该领域受益于开放合作和共享知识，加速了蛋白质设计的进步。总的来说，这篇文章强调了人工智能如何改变我们理解和创造蛋白质的方式，其潜在应用范围从医疗到纳米技术。

OC