人工智能已经对语言处理和计算机视觉等领域产生了巨大影响,但生物学正在成为下一个主要前沿领域之一。
这一举措发生之际,基因组数据的增长速度超出了许多传统工具的处理能力。在过去的二十年里,测序技术变得越来越便宜,也越来越广泛,产生了大量的生物数据,研究人员可以读取这些数据,但仍然难以以有意义的方式进行解释。
文章继续如下
挑战不再是收集遗传信息,而是了解不同序列如何相互作用并影响现实世界的结果。
输入活体模型活体模特
越来越多的公司试图使用基于 Transformer 的架构来解决这一差距,这也是推动最近一波大型语言模型浪潮的基础方法。这些系统不是预测句子中的下一个单词,而是分析生物序列的模式,旨在揭示传统统计工具经常忽略的结构关系。
该公司的第一个模型系列专注于植物生物学,该领域的遗传数据广泛可用,并且更快的洞察力可以直接影响作物发育和气候适应能力。
订阅 TechRadar Pro 时事通讯,获取您的企业成功所需的所有热门新闻、观点、功能和指导!
Living Models 生物学副总裁 Bertrand Gakière 表示:“地球上的所有生物都运行相同的编程语言:DNA 编码 RNA 编码 蛋白质编码 表型。”
“我们不会建造另一个聊天机器人。我们正在构建一个可以读取和解释该代码的模型,这比预测句子中的下一个单词更有用。”
我想了解这种转变在实践中意味着什么,因此我与 Living Models 首席执行官兼联合创始人 Cyril Véran 讨论了为什么生物学正在成为一个信息问题,以及为什么植物是起点。
- Living Models 希望建立生物学基础模型。但为什么?我们能否将其与 20 世纪 90 年代解码人类基因组的竞赛进行比较?
人类基因组计划为我们提供了有用的前后对比。2003年之前,我们根本无法阅读代码。该项目的成就是具有里程碑意义的——为人类生物学提供了完整的零件清单。
但零件清单并不理解。经过二十年的出色工作(GWAS 研究、CRISPR 筛选、QTL 作图、基因组选择),我们积累了大量的基因组数据并产生了真实的结果。
我们还没有大规模地进行概括。当今存在的工具从根本上来说是相关的:它们了解到,在给定的人群中、在给定的环境中,某些标记组合往往与某些表型同时出现。
他们不知道为什么。让他们推断出一种新的基因组合、不同的环境或相关物种,统计关联就会崩溃。这就是该行业二十年来一直遇到的障碍。
改变的是自然语言处理的同一件事:变压器架构。当应用于文本时,变形金刚不再记忆单词,而是开始学习它们之间的结构关系——语法、上下文、远程依赖关系。这种转变现在正在生物学领域发生。
问题不在于 DNA 是否像人类语言那样具有“意图”。事实并非如此。但它确实具有结构——调控语法、保守基序、遥远基因组区域之间的上位相互作用——并且该结构可以单独从序列数据中大规模地学习,而不需要手动注释每个关系。
这就是我们所处的竞赛。不是为了对更多基因组进行测序——我们有足够的基因组。建立一个能够充分理解它们的模型,以便育种者、研究人员或生物技术公司可以提出有意义的问题并获得基于生物学的答案。
人类基因组计划就是阿波罗计划:它证明我们能够实现这一目标。我们正在建设的是使旅程变得例行公事的基础设施。
- 为什么是植物,为什么不是其他两个主要领域?鉴于你的名字是 Living Models,我想这在你的路线图上。
有一个战略答案和一个科学答案,而且它们指向同一个方向。
人们通常会问的问题是:为什么不从人类健康开始,资金投入更深,临床效果更明显?我们选择另一条路有四个具体原因。
第一:数据访问。我们训练的每个植物基因组都是完全公开的。没有 HIPAA、没有 GDPR、没有患者同意框架、没有生物样本库准入谈判、没有机构审查委员会。我们收集了涵盖数千个植物基因组的训练数据,没有任何法律依赖性。
在人类基因组学中,在训练第一个模型之前,构建等效的数据集需要多年的监管导航。这种不对称不是脚注,而是一种基本的结构优势,它让我们能够以临床背景下不可能的速度移动。
第二:监管摩擦。在人类医学中部署基因组模型意味着要应对 FDA、EMA 以及每个市场的同等机构的要求。证据标准确实非常高,而且速度非常慢。
在农业中,从模型输出到现场应用的路径由植物品种登记框架控制,该框架虽然有意义,但在根本不同的时间尺度上运行。我们可以在几年而不是几十年内迭代、验证和部署。
第三:实验速度。在人类生物学中,失败的预测所产生的后果远远超出了实验范围。
在植物生物学中,我们可以设计一个试验,将其培育出来,并在一个季节内测量结果。如果我们预测的能够赋予耐旱性的变体被证明是无关紧要的,我们就会知道,这需要几个月而不是几年的时间,并且成本是在田间而不是临床试验中测量的。
改进模型的反馈循环速度显着加快。没有人监管表现不佳的作物会发生什么。
第四,也许也是最重要的:紧迫性。农业是受气候变化影响最直接、最直接、最不可逆转的行业。生长季节正在发生变化。曾经罕见的干旱和热应激事件正在成为世界粮仓的基线条件。
到 2050 年,将养活 100 亿人的品种需要针对尚未大规模存在的气候进行培育,这意味着我们不能等待 20 年的田间试验来确定哪些基因组组合是相关的。
对 BOTANIC 所做的事情的需求——预测历史训练分布之外的条件下的生物功能——并不是未来农业中的用例。这是该行业目前面临的决定性问题。
至于真菌、微生物组等:Living Models 不是一家植物公司。我们是生命系统的基础模型公司。工厂是结构优势最大、紧迫性最大的地方。该架构具有概括性。这个名字是故意选择的。
- 是什么阻止拜耳作物科学、科迪华、先正达、巴斯夫和利马格兰模仿您正在做的事情?你们是如何与更大的团队相匹配的——你们是所在类别中的 DeepSeek 吗?
DeepSeek 是一个合理的参考点,有一个重要的澄清:DeepSeek 的重要性并不是因为它便宜,而是因为它在架构上非常高效,而规模更大、资源更丰富的团队并未优先考虑这一点。
教训是,在深度学习中,最接近问题的团队往往比拥有最多资本的团队行动得更快。同样的动态也适用于此。
大型农化集团是非凡的组织。他们运营全球育种计划,应对数十个市场的复杂监管环境,并管理规模惊人的供应链。
从结构上来说,它们的目的并不是前沿人工智能研究——这种研究需要聘请来自华为诺亚方舟实验室、Mila、Owkin 和巴黎高等师范学院的研究人员,并给予他们从头开始重新设计训练流程的自主权。这是一种不同的制度模式。
您不能通过调整 IT 预算来获得它。您需要花费数年时间来构建它,或者与已经拥有它的人合作。我们预计许多最大的种子公司都会采取后者。
关于IP问题:我们故意将BOTANIC作为开放权重发布,其逻辑值得精确解释。模型权重是一个快照。持久的竞争资产是产生下一个更好的快照的飞轮:通过每个客户合作伙伴积累的专有微调数据、来自真实育种计划的反馈循环以及随着时间的推移而复合的架构改进。
我们与主要种子集团建立的每一次合作都会产生竞争对手无法复制的训练信号,因为表型数据(数十年的田间试验、性状测量、环境相互作用)从一开始就从未公开过。开放权重加速了采用的第一步。专有数据管道创造了随之而来的护城河。
至于收购:对于现有企业来说,这是一个真正的战略选择,我们也意识到这一点。它将证实的是,该能力无法按照所需的速度在内部建立。这本身就是一种验证形式。
- 生物幻觉可能会产生什么后果?您需要采取哪些障碍来减轻风险?
我想在这里说得精确,而不是让人放心,因为这个问题需要精确。
BOTANIC 作为假设引擎运行,而不是决策系统。当模型对基因组变异可能对耐旱性的贡献进行评分时,它会优先考虑用于实验验证的候选列表,而不是发布种植指令。
在研究环境中,错误预测的后果是实验的浪费,通常需要数周到数月的工作。这是真正的成本,我们认真对待。
更重大的风险发生在工业规模上:一家种子公司根据系统性偏差预测来分配其研发计划,可能会在现场数据出现错误之前在多年的育种周期中错误分配资源。
植物育种从基因组假设到商业品种的时间尺度为四到八年。这就是我们设计时所针对的错误传播窗口。
具体来说,我们做了三件事。首先,每个模型输出都内置了不确定性量化——预测带有经过校准的置信分布,而不是点估计,并且我们根据 bioRxiv 技术报告中记录的保留的基因组基准来验证该校准。
其次,我们明确标记了基因组空间的低覆盖区域,其中训练分布很薄,并且应该对模型置信度持怀疑态度。
第三,我们的商业部署被集成到现有的育种工作流程中,由领域专家做出相应的决策 - BOTANIC 加速了假设生成步骤,它不会取代农学家或田间试验。
结构性保障是领域本身的性质。与模型错误可以通过数百万个决策以机器速度传播的软件系统不同,农业生物学的每一步都内置了人类专家和多季节验证周期。我们针对现实进行设计,而不是试图替代它。
- 能给个真实的申请吗?科学家会像 ChatGPT 一样与它对话吗?公司可以将 BOTANIC 与专有数据结合起来吗?
具体示例:一位小麦育种者希望开发能够抵御 2022 年南欧收成严重受损的干旱的品种。传统方法意味着跨越数千个候选品系,在多个季节中种植它们,并测量哪些品种能够存活下来。
从假设到商业品种,这是一个五到十二年的过程,大多数候选人都迟到了。
现有的计算工具包——GBLUP 或 BayesC 等基因组选择模型——已经帮助缩小了这个漏斗。但这些模型的工作原理是学习特定训练人群中标记组合和测量表型之间的统计相关性。
它们的每个性状需要数百到数千个表型个体,当你转移到不同的环境或遗传背景时,它们就会降解,并且它们对生物机制视而不见。
他们会告诉您,特定的单倍型块往往与历史数据中的耐旱性同时出现。他们无法告诉你原因,或者它是否会存在于他们从未见过的遗传背景中。
BOTANIC 从不同的方向解决同一问题。因为它接受了 1,600 个植物基因组的原始基因组序列的训练,而不是表型标记关联,所以它学习了潜在的生物结构:调节语法、保守的功能基序、经典模型视为噪音的远程上位相互作用。
当应用于育种者的候选品系时,它可以优先考虑生物学上一致的变体,而不仅仅是统计上相关的变体,包括任何历史训练集中都不存在的新组合。然后,实验计划针对的是规模小得多、基础更好的候选人。
繁殖周期并没有消失,但它的前端变得更加高效,并且它的预测与训练分布更加相符。
关于界面问题:主要环境是基因组学研究人员已经使用的计算工作流程——序列文件、注释轨迹、变异调用格式。这是价值最高且集成最干净的地方。
关于混合部署:是的,这是我们与企业客户一起运行的架构。主要种子群体通常拥有数十年的专有表型数据——田间试验结果、性状测量、特定环境的性能记录——这些数据从未与能够推理基础基因组学的模型相结合。
我们在私人部署中对该数据集进行微调:客户的数据不会离开他们的环境,生成的模型权重仍然是他们的财产,他们得到的是一个模型,该模型结合了来自 1,600 个植物基因组的一般生物学知识以及对其作物、环境和育种目标的深度特异性。
它与基因组数据库查询之间的区别就是流利的领域专家和搜索引擎之间的区别。
在 Google 新闻上关注 TechRadar和 将我们添加为首选来源在您的源中获取我们的专家新闻、评论和意见。请务必点击“关注”按钮!
当然你也可以在 TikTok 上关注 TechRadar以视频形式获取新闻、评论、拆箱,并定期从我们这里获得更新WhatsApp也是。