英语轻松读发新版了,欢迎下载、更新

认识转录员背后的科学家

2025-04-30 13:38:36 英文原文

Oday的工具将解锁明天的治疗方法。AI专家,生物学家和工程师正在合作建立新技术,这些技术改变了科学家如何研究生物学和解锁人类疾病的治疗方法。转录形式是AI和细胞生物学Nexus的新型AI模型,它是沿该方向向前迈出的一步。

请继续阅读以了解更多在接受转录形式的建筑商,计算生物学家Sara Simmonds和AI研究员James Pearce的采访中。

您想建立要解决的工具的生物学当前挑战是什么?

萨拉·西蒙兹(Sara Simmonds):我们希望以单细胞分辨率了解人体中的所有细胞。其中很大一部分是了解细胞之间的差异以及它们如何获得这些差异。人体中的所有细胞均来自一个细胞,即受精卵。然后,它们沿着不同的谱系繁殖并成熟,从而使从脑细胞到心脏细胞再到肌肉细胞。

詹姆斯·皮尔斯:当您考虑体内每个细胞中的每个单元格中,这是一个特别有趣的过程,都可以在其中包含完整的DNA序列。但是,该DNA在每个细胞中都不以相同的方式使用 - 实际上只表达了某些基因来创建脑细胞,例如,在肝细胞中使用了不同的集合。

语言有一些相似之处。如果您想象每个基因都像一个单词,那么每个单元都有自己的单词句子,使其独一无二。我们正在建立技术来对这些句子进行解码 - 在健康和疾病状态下,跨生物体中的每个细胞,以便我们可以理解生物学的这一基本部分。

您如何合作解决这一挑战?

SS:我们的团队包括AI研究人员,工程师,生物学家,数据科学家和技术计划经理。

JP:像我一样,AI研究人员正在研究实际建立和培训模型。一些工程师在AI团队中,另一些工程师则进行了更多的中央工程工作,以帮助我们的工具基础架构。然后,您将拥有像Sara这样的计算生物学家,他们可以帮助数据收集和处理,以及对模型可以执行的任务的评估。

SS:我们紧密合作,在一开始会遇到很多事情来弄清楚事情。我们知道我们想建立一个对超过一亿个单元格训练的模型,并考虑到哪种数据对这种类型的模型最有意义,从CZ Celxgene中提取了很多数据,CZI的开放平台用于访问和分析标准化的单电池数据。这种类型的数据量化了在单个细胞中使用或表达的给定基因,如果是的,则量化了。

最近发布了您最终建造的模型,即转录形式。这是什么?

JP:转录形式是一种强大的AI模型,旨在探索细胞如何在生物体内,包括感染或疾病甚至跨物种的不同状态中的不同组织之间变化。它受到了来自许多组织的数百万个细胞的训练,这些细胞跨越了12个不同的物种,跨越了15亿年的进化。

转录形式是对其训练的大量数据的更简洁表示,并学会了从中概括。而且,多样而复杂的训练数据意味着它可以拾取代表不同类型细胞的基因表达模式,甚至可能是指示疾病的细胞。

SS:科学家探索这是很多开放的基础。大多数模型都具有一项要擅长的特定任务,但这是一个可推广的模型,应该擅长做很多事情。

深入研究: 转录形式 - 15亿年的生成跨物种细胞地图集

转录形式将帮助科学家以前无法做到的什么?

SS:这种类型的模型的目标之一是能够在计算机中进行实验(在计算机中)或产生假设,使研究人员可以在实验室进行测试。我们想节省研究人员的时间,加快发现过程。

JP:研究人员一直都在收集有关单个细胞的新数据,并花费大量时间试图找出数据中的内容。转录形式可以通过注释新数据集来帮助解决此问题:弄清楚那里有哪些类型的单元格,甚至探索任何细胞是否感染或其他可能表明问题的偏差。

SS:我希望它对细胞疗法的工程细胞可能有用,在这些细胞疗法中,您需要确切地了解细胞命运的决定。转录形式可以帮助识别指导细胞中这些成熟程序的关键分子调节剂,称为转录因子。

JP:独一无二的是,这也是第一个转化跨物种基因表达模式的生成模型。将来,可以使用跨物种训练的AI模型来预测模型生物(如小鼠)的发现是否会在实验室进行澄清或验证实验之前转化为人类细胞。

转录形式如何拟合CZI构建虚拟细胞模型的目标?

JP:我们将虚拟单元格设想为由在共享通用表示空间中相互作用的模型组成的系统。转录形式可能是允许您获得自然变化的单细胞分子数据的代表模型之一。例如,其他模型可能专注于其他模式,例如显微镜。从多个角度或方式查看数据的横截面的能力将为细胞生物学提供更全面的图景。

为什么将AI应用于细胞生物学和构建虚拟细胞模型的方法是理解生物学和最终人类健康所必需的?

SS:转录构造者接受了来自12种不同物种的数据,这些数据代表超过15亿年的进化史。与不利用AI的计算能力相比,这可以揭示细胞分子基础的模式和复杂性更多。

JP:在语言中,每个单词都有一个定义,但是该单词的含义可以根据句子或段落的上下文而改变。在生物学中,每个基因的含义和重要性也确实取决于上下文。当您使用大量数据以对其进行训练时,像我们在这里使用的非常大的AI模型在忠实地对数据进行建模。

了解细胞之间的细微分子差异以及控制这些差异的转录因子的潜在相互作用可以使我们深入疾病的生物学。这将使研究人员能够询问有关细胞如何改变疾病并基于更多数据获得答案的特定问题,因为直接从模型中提取洞察力会更容易,而不是您可以提示,而不是必须询问所有不同的数据集。随着数据量的扩大,它们变得越来越有用。

为什么这是一个有趣的生物学时刻?

SS:使用AI有很多不同的方法,但我认为它在科学中会变得无处不在。这就像问我们如何使用互联网,或者如何以各种可能的方式使用计算机!我们正处于这次革命的开始。AI将非常强大,并对科学产生巨大影响。

JP:变压器模型能够非常有效地处理大量数据,而以前的模型具有阻止它们这样做的瓶颈。当您拥有大量数据时,它们的工作非常好。

这些模型经过培训的数据可以分解为大多数人熟悉的语言模型的代币,令牌可能是一个词。在转录形式的情况下,来自单个细胞的单个基因是令牌。大型语言模型之所以如此成功,是因为它们具有互联网上的大量数据以进行培训。但是,直到最近,我们没有足够的代币来利用这些类型的变压器模型来利用这些类型的变压器模型。实验室中使用的技术从构成代币的细胞中获取分子数据会不断提高,更有效。这意味着在接下来的几年中,用于培训的高质量,复杂的生物令牌的数量甚至可以超过互联网上高质量的文本令牌。如果您想到大型语言模型帮助我们解析了互联网,然后考虑对生物学的同等影响 - 这就是为什么我们对这项工作感到如此兴奋。

了解我们如何加速生物医学研究的速度。

观看詹姆斯描述这项工作,阅读转录式形式预印本,参观虚拟单元平台

关于《认识转录员背后的科学家》的评论


暂无评论

发表评论

摘要

AI专家,生物学家和工程师正在开发新技术,通过协作来改变生物学研究并解锁人类疾病的治疗方法。转录形式是一种新型的AI模型,它将AI与细胞生物学整合在一起,在涵盖15亿年进化的12个物种中对超过1亿个细胞进行了训练。它旨在在不同的细胞环境中解码基因表达,使科学家能够进行虚拟实验并更有效地产生假设。该工具将促进了解复杂的生物学模式,并可能导致细胞疗法和疾病研究中的发现更快。t