作者:Shelly Fan
病毒无处不在。它们存在于空气中;在污水、湖泊和海洋中;在草地和腐朽的木材里。有些病毒能在极端环境中茁壮成长,比如热液喷口、南极冰层,甚至可能是外太空。
它们也非常古老。有些可能和第一批细胞一样古老,甚至比第一批细胞更古老。
尽管自从人类物种诞生以来就与病毒共存,但病毒世界的大部分仍然充满神秘。几十年来,科学家们费尽心思地从世界各地采集样本并对其基因组进行测序。但由于病毒迅速变异,这些努力只能触及病毒圈的表面。
中山大学的孟斯及其同事最近在一篇新论文中写道,大多数病毒基因组材料是生物“暗物质”发表于 细胞.
借助人工智能,该团队正在揭示病毒世界的全新面貌。这款名为LucaProt的人工智能利用大型语言模型来解析病毒遗传物质的片段。另一个算法进一步将基因数据分解为更易处理的部分以提高效率。
经过分析近10,500个样本——有些来自之前的数据库,有些是在研究过程中收集的——人工智能从全球各地的样本中检测出了70,458种新的RNA病毒。
“突然间你能看到之前未曾注意到的事物,”多伦多大学的阿特姆·巴巴扬(未参与该研究)说道。告诉了 自然.
病毒有着不良的声誉。新冠疫情和每年的流感季节凸显了它们破坏性的一面。但它们也可以被用来战斗耐抗生素细菌穿梭客车基因疗法进入细胞,或被开发成疫苗。
绘制病毒世界的图谱为观察病毒的进化和变异提供了全局视角——这不仅对生物技术有影响,也可能对未来抗击大流行病具有潜在意义。
在人类中,DNA携带遗传蓝图。DNA转化为RNA——也由四个遗传字母组成——将遗传信息带到细胞工厂以制造蛋白质。
病毒是不同的。有些病毒完全不使用DNA,而是直接将它们的遗传蓝图编码在RNA中。这听起来很不寻常,但实际上你已经知道一些这样的病毒:引起新冠肺炎的SARS-CoV-2就是一种RNA病毒。这些病毒有一些科学知之甚少的蛋白质,它们也可能为生物学提供新的见解。
几十年来,科学家们通过采集样本试图破解病毒圈。这些样本来源从日常的(如当地溪流中的水)到极端的(如南极冰或深海水)。从这些样本中提取的RNA被仔细测序并存入数据库。这种方法被称为宏基因组学,能够捕捉环境中的所有病毒RNA片段。
解读基因宝藏还需要更多的工作。传统的计算方法很难从这些大型数据库中筛选出有意义的见解。
进入ESMFold由Meta开发的该程序依赖于大型语言模型——同样的技术支撑了OpenAI的ChatGPT和Google的Gemini——根据蛋白质的氨基酸“字母”来预测蛋白质结构。包括DeepMind的AlphaFold和David Baker的RoseTTAFold在内的类似方法,最近为其开发者赢得了2024年诺贝尔化学奖.
ESMFold 接受分子序列并预测蛋白质的原子水平三维结构。在它的第一个实际任务中,科学家们使用该人工智能来解析我们最不了解的微生物中的“暗物质”蛋白。去年,该人工智能预测了结构超过7亿来自微生物的蛋白质。其中有百分之十完全不同于之前发现的任何蛋白质。
注意到这一点,施的团队询问类似的战略是否能在RNA病毒的世界中奏效。
科学家此前曾使用人工智能从……中筛选出潜在的新RNA病毒_petabytes_的基因测序数据—大约相当于5亿张高分辨率照片的数量。
这些研究集中在依赖RNA的RNA聚合酶(简称RdRP)上。在这里,RNA序列编码RdRPs,这是一种标记大多数RNA病毒基因组的蛋白质家族。早期分析根据它们的遗传数据识别出了近132000种新的RNA病毒。
问题在于,病毒会迅速变异。如果编码RNA依赖性 RNA �多聚酶(RdRP)的遗传字母发生变化,训练有素的人工智能可能无法识别这些突变的病毒。新的研究通过将先前的方法与 ESMFold 结合在一个双通道人工智能中解决了这个问题。
第一个通道使用类似ChatGPT的基于变压器的模型,从大型数据库中提取编码病毒复制酶(RdRP)的氨基酸序列“关键词”。经过包含所需序列和一些随机生成序列的训练后,AI创建了一个大约由20,000个频繁出现的编码RdRP的蛋白质序列组成的词汇表。
与之前的方法相比,这一步将基因库分解成更易于处理的片段,使人工智能更容易应对更长的基因序列并检测病毒的RdRP蛋白。
第二个通道使用ESMFold的一个版本。这是一个慢而谨慎的阅读器。它不会快速地浏览蛋白质词,而是仔细“读取”每一个字母,并预测每个结构如何与其他结构连接以形成3D蛋白质形状。这一步使AI有了基础概念,让它了解RdRPs在活病毒中的外观应该是怎样的。
LucaProt是在将近6000个编码RdRP蛋白的序列和超过229500个已知编码不同蛋白质的序列上进行训练的。在测试数据集(研究人员已经知道答案)的挑战下,该AI表现异常准确,误报率仅为0.014%。
人工智能发现了70,458种潜在的新病毒。其中一种从泥土中分离出来的病毒具有令人惊讶的长基因组——研究团队写道,这是迄今为止已知的最长的RNA病毒之一。其他一些病毒可以在温泉和极度咸湖中生存。
扩增的病毒圈向已知的病毒群添加了新的病毒——例如,黄病毒科这会导致肝炎或黄热病。LucaProt还发现了60种不同的病毒群,每个都与今天已知的所有病毒都有很大的不同。
他们并没有说这些因素会导致疾病,但写道它们“在之前的RNA病毒发现项目中很大程度上被忽略了”。
巴巴扬先生/女士研究发现“在进化空间的偏远地区存在一些RNA病毒多样性的微小区域。”
病毒需要一个活的宿主才能存活。团队正在升级他们的AI以预测这些宿主。大多数RNA病毒会感染真核生物,其中包括植物、动物和人类。一些病毒也可以感染细菌——它们之间的相互作用启发了基因编辑工具CRISPR-Cas9。
作者写道:“RNA病毒的进化历史至少与细胞生物一样长,甚至更长。”
常常被忽略的是生命的第三分支——古菌。这些生命形式在地球生命早期阶段进化,与细菌和真核生物有相似之处,例如它们的遗传物质是如何复制的。
但古菌是生命中一个独特的分支,它们在极端环境中茁壮成长,例如热液喷口或极度咸水。有迹象表明RNA病毒也可能感染古菌。如果是这样的话,它可能会为我们生命之树带来新的见解——就像CRISPR技术一样,有可能导致新生物技术的出现。
图片提供:国立过敏与传染病研究院 / Unsplash
Shelly Fanhttps://neurofantastic.com/
雪莱· Xuelai Fan 是一名神经科学家转型而来的科学作家。她在不列颠哥伦比亚大学完成了她的神经科学博士学位,在那里她开发了治疗神经退行性疾病的新型疗法。在研究生物大脑的过程中,她对人工智能和所有生物科技领域产生了浓厚的兴趣。毕业后,她前往加州大学旧金山分校研究能够使衰老的大脑恢复活力的血液因素。她是 Vantastic Media 的联合创始人,这是一家通过文字和视频探索科学故事的媒体公司,并经营着荣获奖项的博客 NeuroFantastic.com。她的第一本书《人工智能会取代我们吗?》(泰晤士&罗德里奇出版社)于2019年出版。