每个人都由数万亿个细胞组成,每个细胞都具有自身的功能,无论是携带氧气,与感染作斗争或建造器官。即使在同一组织中,也没有两个细胞完全一样。单细胞RNA测序(SCRNA-SEQ)使我们能够测量单个细胞的基因表达,从而揭示了每个细胞在给定时刻所做的事情。
但是有一个收获:单细胞数据很大,高维,很难解释。每个细胞都可以用数千个数字来表示,其基因表达测量值传统上需要专门的工具和模型来分析。这使单细胞分析缓慢,难以扩展,并且仅限于专家用户。
如果我们可以将成千上万的数字变成人类和语言模型可以理解的语言怎么办?也就是说,如果我们可以问一个细胞的感觉,它的作用,或者如何对药物或疾病的反应并以普通英语的方式回答呢?从单个细胞到整个组织,了解此水平的生物系统可以改变我们研究,诊断和治疗疾病的方式。
今天在缩放大型语言模型以进行下一代单细胞分析”,我们很高兴介绍Cell2Sentence尺度(C2S规模),一个强大的开源大语模型(LLMS)的家族,在单细胞水平上训练了“读取”和“读写生物学数据”。在这篇文章中,我们将浏览单细胞生物学的基础知识,如何将细胞转化为单词序列,以及C2S尺度如何打开生物学发现的新可能性。
通过使用语言作为接口,我们使单细胞数据更容易访问,可解释和灵活。而且,由于许多生物学的基因名称,细胞类型和实验性元数据已经在文本中表达,因此LLMS自然适合处理和理解此信息。
C2S尺度建立在Google的Gemma Open Model家族之上,通过数据工程和精心设计的提示来调整它们,以整合细胞句子,元数据和其他相关的生物学环境。基础LLM架构保持不变,使C2S规模可以完全受益于围绕通用语言模型建立的基础架构,可扩展性和丰富的生态系统。结果是一套LLM的套件,该套件对现实世界中的数据集,生物元数据和科学文献进行了10亿个代币培训。
C2S尺度包括一个从4.1亿到270亿个参数的模型家族,旨在满足研究社区的各种需求。较小的型号更有效且易于访问 - 可以通过有限的计算进行微调或部署它们,使其非常适合探索性分析或资源受限的环境。较大的模型虽然在计算密集程度上更加密集,但在广泛的生物学任务中提供了更高的性能。通过发布这些模型大小的范围,我们可以授权用户为其特定用例,平衡性能,速度和计算要求选择最佳模型。所有型号将被制作开源,并用于微调或下游使用。
想象一下有人问,这个T细胞将如何回应抗PD-1治疗(一种常见的癌症治疗疗法)?
如下左图所示,C2S尺度模型可以用自然语言回答,从它们在预训练期间看到的细胞数据和生物学知识也可以回答。这使对话分析可以通过自然语言与以前无法实现的方式与数据进行交互,如下所示。
C2S尺度可以自动在不同级别的复杂性中生成SCRNA-Seq数据的生物摘要,从描述单细胞的细胞类型到生成整个组织或实验的摘要。这可以帮助研究人员更快地解释新数据集,即使没有编写复杂的代码也是如此。
我们工作的一个核心发现是,生物语言模型遵循明确的缩放定律 - 随着模型大小的增加,绩效可以预测。从细胞类型注释到生成细胞和组织,较大的C2S尺度模型在一系列生物学任务中始终超过较小的模型。对于数据集的解释,我们观察到在参数效率式制度中缩放模型大小时,语义相似性得分的一致增长。通过全面的微调,随着模型容量增加到270亿个参数,组织产生中的基因重叠率显着提高。这种趋势反映了在通用LLM中观察到的内容,并强调了一个有力的见解:随着更多的数据和计算,生物学LLM将继续变得更好,为越来越复杂的生物学发现工具打开了大门。
就像Gemini这样的大型语言模型通过加强学习进行微调,以遵循指示并以有益的,人类一致的方式做出反应一样,我们应用类似的技术来优化C2S尺度模型以进行生物学推理。通过使用设计用于语义文本评估的奖励功能(例如,Bertscore),我们训练C2S规模,以输出生物学上准确且内容丰富的答案,这些答案更像是数据集中的真实答案。这将模型指向对科学发现有用的反应,尤其是在建模治疗干预措施之类的复杂任务中。
该项目的主要贡献者包括:Syed Rizvi1,2,丹尼尔·莱文2,Aakash Patel2,Shiyang Zhang2,埃里克·王(Eric Wang)3,sizhuang他2,大卫张2,Cerise Tang2,Zhuoyang lyu4,Rayyan Darji2,Chang Li2,艾米丽太阳2,大卫钟2,劳伦斯·赵2,詹妮弗·夸2,大卫·布劳恩(David Braun)2,布莱恩·哈夫勒(Brian Hafler)2,Jeffrey Ishizuka2,Rahul M. Dhodapkar5,Hattie Chung2,Shekoofeh Azizi3,Bryan Perozzi1和大卫·范·迪克(David Van Dijk)2。
隶属关系: