英语轻松读发新版了,欢迎下载、更新

科学家说

2025-01-28 14:15:08 英文原文

作者:Patrick PesterSocial Links NavigationTrending news writer

An artist's depiction of esmGFP, the new fluorescent protein created by ESM3.
艺术家对ESMGFP的描述,这是ESM3创建的新荧光蛋白。 (图片来源:EvolutionaryScale)

一个人工智能(AI)模型已经模拟了十亿年的分子进化,以创建以前未知蛋白的代码。研究人员说,发光的蛋白质类似于水母和珊瑚中发现的蛋白质,可能有助于开发新药物。

蛋白质是生命的基础之一,并在体内执行各种功能,例如建立肌肉和战斗疾病。名为ESMGFP的模拟蛋白仅作为计算机代码存在,但包含以前未知类型的绿色荧光蛋白的蓝图。在自然界中,绿色荧光蛋白可为荧光水母和珊瑚提供发光。

阐明使ESMGFP的说明的字母顺序仅与最接近的已知荧光蛋白相似,这是在Bubble Tip Sea Anemones中发现的蛋白质的人类修饰版本(Entacmaea Quadricolor) - 五颜六色的海洋生物看起来像在触手的末端有气泡。序列的其余部分是唯一的,总共需要96个不同的遗传突变才能进化。这项研究称,这些变化将花费超过5亿年的时间才能自然发展。

一家名为的公司的研究人员EvolutionaryScale 公布ESMGFP以及用于创建它的AI模型ESM3在去年的预印刷研究中。独立科学家现在已经对这些发现进行了同行评审,这些发现于1月16日在《杂志》上发表科学

ESM3不在进化的通常约束中设计蛋白质。取而代之的是,这是一个问题解决方案,填补了研究人员提供的不完整蛋白质代码的空白,并且这样做可以根据所有潜在的途径进化可能存在可能存在的某些东西。

“我们发现ESM3学习了基本的生物学,并且可以在进化探索的空间之外生成功能蛋白,”研究合着者亚历克斯·瑞夫(Alex Rives)EvolutionaryScale的联合创始人兼首席科学家在一封电子邮件中告诉Live Science。

有关的:中国研究人员刚刚在两个月内建立了一个开源竞争对手。硅谷被吓坏了。

将世界上最迷人的发现直接传递到您的收件箱中。

这项新研究以Rives及其同事的研究为基础始于元,在2024年开始EvolutionaryScale之前,Facebook和Instagram的母公司。ESM3是其最新版本的生成语言模型,类似于OpenAI的GPT-4,该模型运行了ChatGpt,但它基于生物学。

蛋白质由称为氨基酸的分子的链组成,该分子的序列由基因提供。不同的蛋白质具有不同的氨基酸序列。它们在结构上也有所不同,每个折叠成一个独特的形状,使他们能够执行其功能。自然教育。为了使ESM3了解蛋白质,研究人员为蛋白质氨基酸序列,结构和功能作为一系列字母的主要特性提供了模型数据。

该团队对自然界中27.8亿蛋白的数据培训了ESM3。然后,研究人员随机掩盖了蛋白质蓝图的一部分,并在缝隙中插入了ESM3插头,以根据所学到的知识来完成代码。

Rives说:“一个人可以填充单词中的毛坯”到_或不到_,即_是_”,我们可以训练一种语言模型来填充蛋白质中的空白。”“我们的研究表明,通过解决这一简单的任务,有关蛋白质生物学深层结构的信息就会出现在网络中。”

科学家已经为各种目的修改了天然蛋白质和工程师的新蛋白质。例如,绿色荧光蛋白在研究实验室中广泛使用。它们的遗传代码通常被添加到其他DNA序列的末端,以转动它们编码绿色的蛋白质。这使科学家可以轻松跟踪蛋白质和细胞过程。Rives指出,ESM3的功能可以加速蛋白质工程的广泛应用,包括帮助设计新药。

蒂法尼·泰勒(Tiffany Taylor),英国巴斯大学的一名进化生物学家,他不参与研究,并在2024年报道了现场科学研究的预印本版本。在她的分析中,泰勒(Taylor)写道,像ESM3这样的AI模型将使蛋白质创新工程发展不能。但是,她还指出,研究人员对模拟5亿年进化的主张仅专注于单个蛋白质,并且不考虑最终创造生命的自然选择的许多阶段。

泰勒说:“ AI驱动的蛋白质工程很有趣,但是我不禁感到我们可能会过分自信,假设我们可以超越数百万自然选择的复杂过程。”

帕特里克·佩斯特(Patrick Pester)是现场科学的趋势新闻作家。他的背景是在野生动植物保护中,他曾与世界各地的濒危物种合作。帕特里克(Patrick)拥有英国的卡迪夫大学(Cardiff University)的国际新闻学硕士学位。

关于《科学家说》的评论


暂无评论

发表评论