一种新的深度学习模型LucaProt从全球生态系统中检测出了超过251,000种新的RNA病毒物种,揭示了南极沉积物和极端水生环境等地方前所未有的病毒多样性。了解这一突破如何可能重塑我们对病毒进化的理解。
最近发表在期刊上的一项研究显示细胞研究人员开发了一种深度学习模型“LucaProt”,这是一种基于变压器的AI模型,用于检测来自各种生态系统元转录组中高度不同的依赖RNA的RNA聚合酶(RdRP)序列。他们识别出180个RNA病毒超群和161,979个疑似RNA病毒物种,表明RNA病毒广泛存在,甚至存在于极端环境中。
背景
RNA病毒广泛存在,并能感染多种物种,但它们在全球生态系统中的作用直到最近才被大规模的病毒发现工作所认识。这些研究主要利用 RdRP 序列,发现了数千种新的病毒种类,从而扩展了已知的病毒圈。然而,目前的工具往往无法识别高度分化的RNA病毒,因此需要改进鉴定策略。
深度学习,特别是卷积神经网络(CNN)、循环神经网络(RNN)和变压器等算法,在生命科学的许多领域中通过提供更准确和灵活的方法来识别病毒而发生了革命性的变化。虽然CNN和RNN已经非常有效,但在处理长或复杂的序列时它们面临一些限制。擅长捕捉短距离和长距离关系的变压器架构为发现高度多样化的RNA病毒提供了有前景的选择。
因此,本研究中的研究人员开发了一种基于变压器的人工智能(AI)工具,名为LucaProt,并将其与其他几种病毒发现工具(如Diamond、HMMscan、HH-suite和PalmScan)进行了严格的基准测试。LucaProt达到了最高的召回率(98.22%),并且在召回率和长序列处理方面优于这些方法。此外,LucaProt保持了较低的假阳性率,以检测来自元转录组的高度分化RNA病毒,并有可能揭示隐藏的病毒多样性。
关于这项研究
总计分析了10,487个元转录组,包含51太字节的测序数据,其中10,437个来自美国国家生物技术信息中心数据库的序列读档案,涵盖了包括水生、土壤、宿主相关和极端栖息地在内的多种环境。
此外,从南极和中国生成了50个数据集,涵盖了海洋、淡水、土壤和沉积物样本。进行了测序和DNA/RNA提取工作。序列读段被组装成contig,并使用ORFfinder预测潜在蛋白质。
两种策略被用来识别潜在的病毒RNA依赖性RNA聚合酶(RdRP):LucaProt和ClstrSearch(一种传统的基于序列相似性聚类蛋白质的方法)。LucaProt模型是在235,413个样本上训练的,其中包括5,979个阳性序列和229,434个阴性序列,确保了全面且经过充分验证的数据集。
结果与另一种基于同源蛋白聚类的方法进行了比较。一项基准测试将LucaProt与Diamond、HMMscan、HH-suite和PalmScan工具进行了对比。LucaProt优于这些传统工具,发现了显著更多的新RNA病毒。
基于逆转录聚合酶链反应的试验验证了病毒超群中RNA生物体的存在。此外,使用AlphaFold2预测了病毒RNA依赖性RNA聚合酶(RdRP)的三维(3D)结构,并对其与已知病毒和真核生物聚合酶的结构相似性进行了彻底评估。
结果与讨论
LucaProt显示出高准确性(0.014%假阳性)和特异性(1.72%假阴性)。使用这两种方法共识别出513,134个RNA病毒片段,代表了161,979种潜在的病毒物种(具有超过90%的复制酶身份相似度)和180个RNA病毒超群,与国际病毒分类委员会现有的病毒分类相当。
值得注意的是,LucaProt识别出了70,458种假定的独特病毒,其中包括60个之前未被发现的超群,在所有测试方法中具有最高的召回率。在这之中,99.9%的病毒片段和87.2%的超群都被两种方法共同识别到了,而LucaProt则额外识别出了444个独特的片段和23个超群。
LucaProt 达到了最高的召回率,为 98.22%。其他工具识别的新病毒数量不到 LucaProt 的 42%。值得注意的是,LucaProt 回调了其他研究中超过 98% 的 RdRPs。验证确认了这 180 种新的病毒超群是基于 RdRP 动态和序列相似性确定的 RNA 病毒。
进一步使用AlphaFold2进行的分析揭示了新鉴定出的病毒RNA依赖性RNA聚合酶(RdRP)与现有病毒聚合酶之间的结构相似性,增强了对新型RNA病毒鉴定的信心。
该研究还发现了一些迄今为止识别出的最复杂的RNA病毒基因组,其中包括一个长达47.3千碱基对的基因组,这是目前已知最长的RNA病毒之一。大多数RNA病毒的基因组长度约为2,131个核苷酸。在新基因组中发现了额外的蛋白质,进一步证实了它们作为RNA病毒的分类。
RNA病毒圈显著扩大,物种数量相比之前的分类增加了55.9倍。在新发现的超组中发现了很高的系统发育多样性,表明可能存在更多分歧的RNA病毒。
广泛存在的病毒在32种生态系统亚型和1612个地点中被揭示,LucaProt识别的群体中有33.3%此前未被报道。alpha多样性(衡量生态系统内物种多样性的指标)在落叶层等环境中最高,而病毒丰度在南极沉积物和海洋环境中达到峰值。
许多新的病毒超级群主要为水生或基于沉积物的,少数与特定宿主生态系统相关。然而,数据生成中的系统偏差可能会影响跨生态系统的比较。该研究的局限性包括分类高度分化病毒的挑战、一些病毒群体缺乏匹配的DNA数据,以及仅识别部分聚焦于复制酶多聚蛋白段的病毒基因组。
结论
本研究通过深度学习和大规模元转录组分析,识别出了超过251,000种新的病毒物种和180个新超群,从而增强了我们对RNA病毒世界的理解。这些发现强调了环境样本中病毒的广泛遗传多样性,并突显了与病毒病原体和生态系统动态相关的生态学和公共卫生研究的重要性。
期刊参考:
- 利用人工智能记录隐藏的RNA病毒圈。侯欣等,细胞 (2024), DOI:10.1016/j.cell.2024.09.027https://www.cell.com/cell/fulltext/S0092-8674(24)01085-7