作者:Shelly Fan
蛋白质是生物学的分子机器。他们是我们的身体——建筑工人——制造肌肉、骨骼和大脑;监管机构——控制系统;和本地互联网——负责单元和区域之间的信息传输。总之,蛋白质对我们的生存至关重要。当它们工作时,我们就健康。当他们不这样做时,我们也不这样做。
这就是为什么最近我们对蛋白质结构的理解取得了飞跃,以及在人工智能介导下从头开始设计全新蛋白质的能力出现了如此巨大的发展。这就是为什么三个计算机科学家因其在该领域的工作而获得了今年的诺贝尔化学奖。
事情绝不是静止不动的。2024 年是 AI 蛋白质设计的又一个胜利之年。
今年早些时候,科学家们扩展了人工智能模拟蛋白质如何与其他生物分子(例如 DNA、RNA 以及调节其形状和功能的小分子)结合的能力。这项研究扩大了 RoseTTAFold(一种流行的蛋白质设计人工智能工具)的范围,使其能够在原子水平上绘制出基于蛋白质的复杂分子机器,从而为更复杂的治疗铺平了道路。
深度思维很快就跟进了AlphaFold3 的发布是一种人工智能模型,还可以预测蛋白质与其他分子的相互作用。现已上市对于研究人员来说,复杂的人工智能工具可能会带来大量的创新、治疗方法和对生物过程的见解。
同时,蛋白质设计今年变得灵活。人工智能模型生成的“效应子”蛋白质可以在分子开关存在的情况下发生形状变化。这种触发器结构改变了它们对细胞的生物学影响。其中一部分演变成各种排列,包括可以像微型宇宙飞船一样封装和输送药物的笼状结构。
它们很新颖,但人工智能设计的蛋白质真的有效吗?是的,根据多项研究。
一使用 AI 构想出一系列潜在的 CRISPR 基因编辑器。受到大型语言模型(例如 ChatGPT 的诞生)的启发,研究中的 AI 模型最终设计了一个基因编辑系统,在细胞上进行测试时与现有的基于 CRISPR 的工具一样准确。另一种人工智能设计圆形蛋白质能够可靠地将干细胞转化为不同的血管细胞类型。其他人工智能生成的蛋白质将蛋白质“垃圾”引导到溶酶体中,溶酶体是细胞内充满酸的废物处理团,可以保持细胞整洁。
在医学之外,人工智能设计矿物质形成蛋白如果融入水生微生物中,它可能会吸收多余的碳并将其转化为石灰石。虽然还处于早期阶段,但该技术可以通过持续数百万年的碳汇来应对气候变化。
想象力似乎是基于人工智能的蛋白质设计的唯一限制。但仍有一些情况人工智能尚无法完全处理。自然有一个全面的清单,但这些很突出。
当蛋白质相互作用时,结合分子可以增强或破坏这些相互作用。这些分子最初引起了蛋白质设计者的注意,因为它们可以作为药物来阻止破坏性的细胞反应或增强有用的细胞反应。
已经取得了一些成功。生成式人工智能模型,例如射频扩散,可以轻松地模拟结合物,尤其是细胞内自由漂浮的蛋白质。这些蛋白质协调细胞内部的大部分信号传导,包括引发衰老或癌症的信号。破坏通信链的绑定程序可能会停止进程。它们还可以开发成诊断工具。在一个例子中,科学家设计了一种夜光标签来监测细胞的状态,在细胞处于活动状态时检测激素的存在。活页夹抓住了它。
但粘合剂的开发仍然很困难。它们需要与蛋白质上的关键区域相互作用。但由于蛋白质是动态的 3D 结构,会扭曲和转动,因此通常很难确定哪些区域对于结合物来说至关重要。
然后是数据问题。由于公共数据库中有数十万个蛋白质结构,生成人工智能模型可以学习预测蛋白质之间的相互作用。相比之下,粘合剂通常被制药公司保密——每个组织都有一个内部数据库,记录小分子如何与蛋白质相互作用。
一些团队现在正在使用人工智能来设计简单的活页夹进行研究。但专家强调,这些需要在活体生物体中进行测试。人工智能尚无法预测粘合剂的生物学后果,它可以促进某个过程,也可以关闭它。然后是幻觉问题,人工智能模型会想象出完全不切实际的活页夹。
从这里开始,我们的目标是收集更多更好的关于蛋白质如何抓住分子的数据,并可能添加一定剂量的潜在生物物理学。
酶是催化生命的蛋白质。它们分解或构建新的分子,使我们能够消化食物、增强身体并保持大脑健康。合成酶的作用甚至更多,例如从大气中吸收二氧化碳或分解塑料废物。
但设计酶仍然很难构建。大多数模型都是根据天然酶进行训练的,但生物功能并不总是依赖相同的结构来完成相同的事情。看起来截然不同的酶可以进行相似的化学反应。人工智能评估的是结构,而不是功能,这意味着我们需要更好地理解其中一个因素如何导致另一个因素。
与粘合剂一样,酶也有“热点”。科学家们正在竞相争夺追捕这些与机器学习。有早期迹象表明人工智能可以设计新酶的热点,但它们仍然需要经过严格审查。一个活跃的热点通常需要大量的脚手架才能正常工作——没有这些脚手架,它可能无法抓住目标,或者,如果抓住了,也可能会放手。
酶是一个很难破解的难题,尤其是因为它们处于运动状态。目前,人工智能正在努力模拟它们的转变。事实证明,这对该领域来说是一个挑战。
人工智能模型是根据静态蛋白质结构进行训练的。这些快照是经过数十年的努力才获得的,科学家们及时冷冻了蛋白质以对其结构进行成像。但这些图像仅捕捉到蛋白质最稳定的形状,而不是其运动中的形状,例如蛋白质抓住粘合剂或酶扭转以适应蛋白质角落时的形状。
为了让人工智能真正“理解”蛋白质,研究人员必须根据蛋白质变形时结构的变化来训练模型。生物物理学可以帮助模拟蛋白质的曲折,但这极其困难。科学家们现在正在生成合成和天然蛋白质的文库,并逐渐对每种蛋白质进行突变,以了解简单的变化如何改变它们的结构和灵活性。
在人工智能模型生成新结构的方式中添加一点“随机性”也可能有所帮助。AF集群,建立在阿尔法折叠2,在预测已知的变形蛋白质时,向其神经网络过程注入了一些不确定性,并且在多种结构上表现良好。
蛋白质预测是一场竞争性竞赛。但团队可能也需要共同努力。构建快速共享数据的协作基础设施可以加快工作速度。添加所谓的“负面数据”,例如人工智能设计的蛋白质或结合剂在细胞中有毒的情况,也可以指导其他蛋白质设计者。一个更困难的问题是,当底层算法已经更新时,验证人工智能设计的蛋白质可能需要数年时间。
无论如何,毫无疑问人工智能正在加速蛋白质设计。让我们看看明年会提供什么。
图片来源:贝克实验室
范雪莉https://neurofantastic.com/
范学来博士是一位神经科学家转型的科普作家。她对大脑、人工智能、长寿、生物技术,尤其是它们的交叉点的研究很着迷。作为一名数字游牧者,她喜欢探索新文化、当地美食和户外活动。