英语轻松读发新版了,欢迎下载、更新

ARC Institute发起虚拟细胞挑战以加速AI模型开发

2025-06-26 15:00:49 英文原文

作者:Fay Lin, PhD

Artificial Intelligence in Healthcare, AI Health, digital healthcare provider, telemedicine, medical technology
图片来源:Just_super/Getty Images

优素福·罗哈尼(Yusuf Roohani)博士,ARC Institute的机器学习小组负责是一组研究人员,培训人工智能(AI)模型具有转录组数据,以预测细胞基因表达模式如何随着不同的细胞态变化。这些所谓的虚拟细胞可以帮助研究人员发现能够将细胞从患病转移到健康的新药,具有较少的脱靶效应以提高临床成功率。一个 但是,构建虚拟单元并非易事。一个 

Roohani在接受采访时说,当您看细胞时,它们是活力的系统Gen Edge

细胞不断变化,它们会杂乱无章,它们依赖于实验。一个 虚拟细胞模型必须考虑生物学复杂性,例如细胞类型,遗传背景和细胞环境。

此外,许多现有的单细胞数据集都受到大量技术噪声的影响,包括跨独立实验的扰动效应的可重复性有限,从而降低了模型性能。一个 

如果没有标准化的基准和专门构建的数据集,该领域就努力评估虚拟细胞模型是否正在捕获可概括的生物学见解,而不是特定于数据集的模式。一个 

在迈向虚拟细胞基准测试和加速的一步中,ARC Institute宣布了由NVIDIA,10X基因组学和Ultima Genomics赞助的首个虚拟细胞挑战,其公共竞争,其大型奖项的价值为100,000美元,可用于机器学习模型,以预测如何对遗传性逆转响应。挑战在一个新评论发表在细胞以Roohani为首席作家。 一个 

该倡议遵循蛋白质结构预测的批判性评估(CASP)竞争是一年一度的一年一度实验,评估了结构生物学中最新的最新模型。ARC的联合创始人兼核心调查员Patrick Hsu强调,CASP竞争已经改变了25年的蛋白质结构预测,并最终启用了突破性的突破,例如诺贝尔奖获奖算法,Alphafold。一个 

HSU在公开版本中说,ARC可以使用相同的方法将进步加速到全面的虚拟细胞,从根本上讲,这些虚拟细胞可以从根本上改变我们研究生物学的方式并确定靶标,以更好地治疗复杂的疾病。”一个 

艾玛·伦德伯格(Emma Lundberg)博士,斯坦福大学副教授和人类蛋白质地图集的联合主任,该地图集位于斯德哥尔摩的KTH皇家技术学院同意,建立基准是评估和比较虚拟细胞模型的关键挑战。一个 

我希望[ARC]挑战将有助于使社区保持一致,并将工作加速到表演者和有用的虚拟细胞模型。希望这是这个空间中许多标准化挑战中的第一个。Gen Edge。一个 

Chan Zuckerberg Initiative(CZI)的AI高级总监Theofanis Karaletsos是虚拟牢房的活跃开发商,他推动了Czi最近的模型,例如Scgen​​ept用于单细胞扰动,转录式形式用于跨物种预测。一个 卡拉莱托斯(Karaletsos)告诉科学界,我们重点关注建立尖端模型并提供标准化的评估框架,以加深科学界对细胞的了解。”

Gen Edge社区基准很重要,我们认为像Arc这样的开放竞争是加速创新和集体进步的有力机制。”一个 

位于帕洛阿尔托的非营利研究组织,ARC Institute成立于2021年由HSU和Silvana Konermann博士,斯坦福大学生物化学助理教授和ARC现任执行董事。从那时起,该研究所就被众所周知,对数据驱动的AI进行了大赌注。今年早些时EVO 2一个 

新上下文一个 

作为AI模型的主要挑战是在培训数据之外做出预测,ARC竞争将评估 当概括到新的细胞环境时,竞争性虚拟细胞如何预测基因活性的变化。一个 在首届竞争中,ARC生成了300,000 H1人类胚胎干细胞(H1 HESC)的新的单细胞转录组数据集,具有300个遗传扰动,该数据将在整个竞争中部署,以进行微调,验证,验证和测试。一个 

模型将在以下三个指标上进行评估:1)预测差异表达基因的性能;2)绩效区分不同的扰动效应;

3)与表达计数偏差有关的一般错误。一个 

竞争对手模型的临时性能将在比赛的中间阶段在现场排行榜上共享。拥有顶级车型的三支球队将获得价值100,000美元,50,000美元和25,000美元的奖品,结合了现金奖励和NVIDIA DGX Cloud积分。一个 

竞争的注册是现在打开。来自学术机构,生物技术公司和独立研究组织的个人贡献者以及团队都有资格参加。最终排名将仅由最终测试集的模型性能决定,该测试集将于10月下旬发布,即最终提交截止日期的一周。获奖者将于12月宣布。一个 

当前状态一个 

作为基线,虚拟细胞挑战竞争者最初将与ARC的第一个虚拟细胞模型(旨在预测各种干细胞,癌细胞和免疫细胞)如何对药物,细胞因子或遗传扰动做出反应。州于本周早些时候发布了非商业用途,并在a预印本张贴在Arc的网站上,该网站尚未经过同行评审。一个 

根据作者的说法,与现有模型相比,状态改善了对多个大数据集的扰动效果的歧视,并提高了50%以上,并确定了跨遗传,信号传导和化学扰动的差异表达的基因。一个 

为了促进灵活性和可扩展性,状态由两个互锁模块组成,称为状态过渡模型(ST)和状态嵌入模型(SE)。一个 

ST使用来自70个环境中超过1亿个扰动细胞的数据来学习扰动效应。与现有模型相反,该模型一次一次对单个单元进行预测,ST利用了独特的双向变压器结构来对整个细胞集合进行预测。该方法通过允许灵活地捕获生物和技术异质性而不依赖于分布的明确假设来提供进步。一个 

对SE进行了从1.67亿人类细胞的观察性单细胞数据进行培训,以学习各种数据集中细胞之间的基因表达变化。该模块提供了针对检测生物扰动和对技术噪声的鲁棒的优化表示形式,以使状态可以通过多个大型数据集有效训练。一个 

STATE is a transformer-based model for predicting perturbation effects across sets of cells [Arc Institute]
状态是一种基于变压器的模型,用于预测各个单元组的扰动效应。[ARC Institute]

数据结合的进度一个 

邀请虚拟细胞挑战竞争者从公共数据库中培训基因表达的模型,其中包括超过十亿个单元格弧虚拟单元格,由大型单细胞数据集组成,Scbasecount,塔霍100m一个 

Fabian Theis,博士,D计算生物学研究所在Helmholtz Munich是一位著名的研究人员,致力于预测细胞水平上的遗传和化学扰动。他说,提高数据量表和质量一直是推动领域向前发展的关键。一个 

``我对即将面临的扰动预测挑战感到兴奋。”Gen Edge。数据量表直到最近才充分扩展,以允许复杂的生成AI模型以优于更简单的线性模型。看到在新数据上评估的各种模型类型的真实分布行为将是令人兴奋的。一个 

Theis的实验组被称为细胞流,基于流量匹配的框架是一种生成建模方法,可以模拟复杂扰动引起的单细胞表型。此外,Theis是开放问题的科学顾问,这是一个科学小组,托管了相关的C用于基准各种单细胞分析方法的Hallenges。一个 

对于虚拟细胞挑战模型培训的其他数据集包括X-Atlas/Orion,,,,AI毒品发现独角兽Xaira Therapeutics上周发布的最大的公开可用的wisturb-seq数据集。数据集提供测量的优势剂量依赖于治疗应用的遗传效应UCH是定义药物靶标会产生预期作用的精确抑制百分比。一个 

Xaira早期发现副总裁CI Chu博士同意,CASP为蛋白质结构预测的基准测试树立了良好的先例。一个 

楚告诉Gen Edge。该领域的进展最终是数据限制的。社区必须建立的公共数据越高,越好这正是我们也发布X-Atlas/Orion的原因。一个 

Xaira目前正在与AI专家Bo Wang,PhD,SVP和生物医学AI负责人一起建立自己的虚拟细胞模型,后者于4月加入了该团队。王来自多伦多大学,被称为SCGPT的发明者这是具有下游功能的单细胞多媒体的基础模型,包括细胞类型注释,扰动响应预测和基因网络推断。一个 

随着研究人员推动下一代AI模型在虚拟单元格挑战排行榜上打个标记时,该领域将注意新的治疗进展是否会效仿。让挑战开始。一个 

关于《ARC Institute发起虚拟细胞挑战以加速AI模型开发》的评论


暂无评论

发表评论

摘要

ARC研究所的研究人员正在开发人工智能(AI)模型,该模型接受了转录组数据训练,以预测不同条件下细胞中基因表达模式的变化。目的是创建虚拟细胞模型,以帮助发现能够将细胞从患病状态转移到健康状态的药物,从而可能提高临床成功率。但是,由于现有数据集中的生物学复杂性和技术噪声,创建这些虚拟细胞是具有挑战性的。为了应对这一挑战,ARC Institute发起了“虚拟细胞挑战”,这是一项公共竞争,获得了100,000美元的奖金,以预测细胞对遗传扰动的反应的最佳模型。该计划旨在建立类似于蛋白质结构预测竞赛的标准化基准。竞争对手将使用大型单细胞转录组学数据集和公共数据库来培训其模型。首届挑战包括评估竞争性虚拟细胞在推广到新环境时能够预测基因活性变化的良好状态,绩效指标重点介绍了预测和对技术噪声的鲁棒性的准确性。现在,对来自各个机构的个别贡献者和团队开放注册。