作者:Mallapaty, Smriti
大流行防范的圣杯是能够仅通过观察病毒的基因序列来预测病毒将如何演变。那个日子还很遥远,但越来越多的研究小组正在使用人工智能 (AI) 来预测 SARS-CoV-2、流感和其他病毒的进化。
病毒——尤其是 SARS-CoV-2 等 RNA 病毒——通过产生新的突变而不断进化。其中一些变化对病毒有利,使变种能够逃避宿主免疫并迅速传播。通过预测病毒将如何进化,理论上,研究人员可以提前设计疫苗和抗病毒治疗方法。
到目前为止,人工智能工具可以预测病毒中的哪些单一突变将最成功,以及哪些变体将在短期内“获胜”。但他们还远远无法预测未来很长一段时间内将发生的突变或变异的组合。
加利福尼亚州斯坦福大学的计算生物学家 Brian Hie 表示,这是“一个非常令人兴奋且非常有用的研究领域”,他是首批将大型语言模型应用于病毒突变研究的研究人员之一1。但他说,预测病毒进化仍然极具挑战性。
过去,研究人员进行了实验室实验来识别具有增强特性的变体,但这些实验既费力又耗时。一些研究小组,例如北京大学免疫学家曹云龙领导的实验室,已经开展了实验,研究个体突变如何影响病毒逃避一组抗体检测的能力2。这些实验可以解释大量的病毒进化,但不能解释全部。
基于人工智能的蛋白质结构预测工具的到来,例如阿尔法折叠,由总部位于伦敦的人工智能公司 DeepMind 以及 ESM-2 创建3英国格拉斯哥大学的病毒学家 David Robertson 表示,Meta(前身为 Facebook,总部位于加利福尼亚州门洛帕克)创建的 ESMFold 和 ESMFold 为该领域带来了新的活力。
人工智能模型需要大量数据才能预测病毒进化。东京大学生物信息学家 Junpei Ito 表示,对导致 COVID-19 的病毒 SARS-CoV-2 进行大规模测序使这一切成为可能。研究人员现在拥有近 1700 万个序列可用于训练模型。
一种名为 EVEscape 的模型由马萨诸塞州波士顿哈佛医学院的黛博拉·马克斯 (Debora Marks) 及其团队开发,已用于设计SARS-CoV-2 刺突蛋白的 83 种可能版本,病毒用它来感染细胞。这些尖刺化身可以逃避接种疫苗或感染当前流行变种的人产生的抗体4,并可用于测试未来 COVID-19 疫苗的有效性。
伊藤的团队专注于病毒适应度的更广泛特征——变体在人群中快速传播并最终占据主导地位的能力。研究人员使用 ESM-2 创建了一个名为 CoVFit 的模型,该模型可以预测 SARS-CoV-2 变体的相对适合度。CoVFit 接受了 13,643 个 SARS-CoV-2 刺突蛋白变体的训练,还使用了来自 Cao 团队的实验数据,了解个体突变如何影响病毒逃避抗体的能力。Ito 的团队创建了一个使用截至 2022 年 8 月的变体数据进行训练的受限模型,发现它成功预测了截止日期后某些变体的适应性改善 — 包括 XBB5,一种新颖的变体在当年晚些时候流行起来。
到 2024 年 3 月,全球主要的 SARS-CoV-2 变种被命名为 JN.1。Ito 团队利用 CoVFit 确定了三个单氨基酸变化,可以帮助 JN.1 获得健康。此后,这些突变已在全球迅速蔓延的变体中出现。