构建人工智能时代的生物原生数据基础设施
作者:Christine Deakers
随着计算成本下降和模型成熟,维持全球药物开发的竞争优势需要整个数据基础设施堆栈的创新。生物学原生数据、代理工作流程和实验室自动化将定义下一代领先的生物技术。
长期以来,药物开发一直是一个反复试验的过程,根据临床现实来检验生物学假设。尽管科学技术不断进步,但从靶点识别到临床候选的时间线仍然往往需要五年以上,而且近90%进入临床试验的药物都失败了。随着治疗领域的发展和模式变得越来越复杂,每种批准疗法的研发成本每九年就会增加一倍也就不足为奇了。药物开发的限制因素从来不是缺乏假设,而是缺乏有效和高效评估假设的资源。
药物设计中的机器学习承诺通过加速迭代和提高成功几率来改变数学。2012 年至 2022 年间,约有 200 家公司利用人工智能进行药物发现筹集了集体 $18B。我们现在看到这些努力的结果在诊所中发挥出来。
2025年6月,英科医疗公布积极的 IIa 期结果在自然医学因其一流的小分子TNIK 抑制剂 Rentosertib在特发性肺纤维化中。这使其成为第一种产生临床概念验证的药物,其目标被发现,并且分子是完全使用生成人工智能设计的。在这个例子中,人工智能利用生成化学平台进行分子设计和优化,在改变“数学”方面发挥了关键作用。该团队仅筛选了 78 个分子(而不是通常需要的数千个分子)后就提名了临床前候选药物,并且这样做了18 个月内,每种批准药物的平均成本不到 10%。
凭借有利的投资回报,包括大型制药公司在内的许多公司齐心协力将人工智能平台纳入研发流程以加速药物发现也就不足为奇了。2026 年初,葛兰素史克 (GSK) 和礼来 (Eli Lilly) 宣布与诺伊提克和柴发现为了访问他们的肿瘤学和药物设计基础模型,GSK 承诺向 NOETIK 预付 5000 万美元,礼来公司则向 Chai 支付每年八位数的生物制剂设计访问费。
因西特罗它将大规模人类细胞数据生成与机器学习相结合,最近 BMS 通过合作提名了另外两个 ALS 目标,验证了全栈方法在将专有数据生成与药物开发相结合方面的价值。
同构实验室AlphaFold 背后的 Google DeepMind 衍生公司已与礼来 (Lilly)、诺华 (Novartis) 和强生 (J&J) 建立了深度合作伙伴关系,其潜在价值超过 30 亿美元,同时将其内部肿瘤学管道推向首次人体试验。其新发布的 IsoDDE 模型在最难的泛化基准上使 AlphaFold 3 的准确性提高了一倍以上,使其成为人工智能驱动药物设计领域最受关注的公司之一。不仅仅是制药公司表现出兴趣:2026 年 4 月上旬,Anthropic 收购了生物系数是一家成立八个月的初创公司,由前 Evozyne/Genentech/Prescient Design 计算生物学家创建,股票价值 4 亿美元,这表明前沿人工智能实验室现在正在直接押注于药物发现。
尽管计算化学工具首次出现于 20 世纪 80 年代,但随着 2010 年代深度学习的兴起,生物技术人工智能的现代时代实际上开始了,当时人们清楚神经网络可以从数据中学习分子结构的有意义的表示。当 DeepMind 的 AlphaFold2 和贝克实验室的 RoseTTAFold 解决了仅根据氨基酸序列预测蛋白质 3D 结构的问题时,出现了分水岭。从那时起,生物人工智能模型的数量呈指数级增长。到 2024 年,已发布超过 350 个生物 AI 模型,包括 AlphaFold3、ESM3、Boltz-1、BindCraft、Evo、scGPT 和 H-Optimus-0,凸显了 AI 执行生成蛋白质设计、基因组学和微扰建模以及病理图像分析等任务的能力。

生物学人工智能模型的寒武纪大爆发已经发生。2015 年至 2025 年间,每年发布的新生物 AI 模型数量呈指数级增长,从不到 10 个增加到 380 多个,并且还在不断增加。(请注意,这纯粹基于来自时代人工智能并且可能不完整。)
最近,JAM-2、BoltzGen、Latent-X2、Chai-2 和 IsoDDE 等新模型继续让我们距离直接从计算机设计类药生物制剂又近了一步。零样本设计任务的势头从未如此强劲。随着新的生物学人工智能模型的激增,该领域现在拥有涵盖药物开发连续体的工具库,从结构建模到分子设计和药物优化。
生物学原生数据基础设施的三个原则
在日益拥挤的环境中,我们相信,随着时间的推移,人工智能驱动的生物技术将持续存在并不断扩展,这些生物技术将建立在三个核心原则的基础上,我们将这些原则共同定义为生物原生数据基础设施的原则:
- 整理可扩展的多模式数据集,其中包含与药物作用机制相关的生物学挑战。
- 将最新的代理人工智能框架纳入整个研发工作流程。
- 采用实验室自动化来推动快速、封闭的实验反馈循环。
实现或体现这些原则的公司将真正加快药物设计时间表、降低临床试验失败风险并兑现人工智能在生物学领域的承诺。
下面我们解释了为什么这些原则对药物开发行业至关重要,并重点介绍了将这些原则付诸实践的新兴类别和公司。
市场地图

我们的市场地图重点介绍了私营生命科学公司,这些公司正在利用人工智能创建和分析生物数据集,以解决药物开发连续过程中的挑战,加速端到端的研发工作流程,并使进行湿实验室实验的物理工作自动化。
1. 大规模的生物学原生数据
使当前人工智能生物学模型成为可能的大部分数据是在数十年的公共资助科学研究中慢慢积累的。蛋白质数据库 (PDB) 200K+ 蛋白质结构通过 X 射线晶体学和 NMR 光谱等技术进行实验确定。同样,人类基因组计划的人类基因和 DNA 图谱是全球研究机构测序工作的结果,而 ChEMBL 的数百万小分子生物活性数据库是通过多年的手动专利和文献数据提取而积累的。这些数据库的影响是显着的——例如,PDB 中的结构数据促进了2019年至2023年间,100%的蛋白质靶向小分子抗癌药物获得FDA批准。


过去几十年开发的 AI 生物学模型反映了现成的数据,近 63% 的模型是根据 Uniprot 数据库和 PDB 中的蛋白质序列和结构进行训练的(时代人工智能)。这些模型最常见的任务是蛋白质或核苷酸序列的上下文理解、蛋白质折叠预测或蛋白质设计。然而,由于生物系统的复杂性和我们研究它们的工具的局限性,我们对早期药物发现生物学的理解仍然存在重大差距。
尽管 PDB 规模庞大,但它严重偏向于稳定、可溶且易于结晶的蛋白质。尽管膜蛋白、本质无序蛋白和瞬时蛋白复合物是肿瘤学和神经退行性疾病中最引人注目的药物靶标之一,但它们常常违反这些标准,因此仍然严重不足。此外,PDB 捕获的结构是静态快照,将蛋白质冻结在单一构象中,而不是它们在活细胞中采用的动态形状集合。然而,通常这些替代构象在治疗上最相关,正如变构结合位点所见,只有在配体结合后才可接近。
尽管将新药推向市场始于蛋白质结构和设计任务,但早期药物发现仅占药物开发过程时间和成本的一小部分。超过三分之二的药物开发时间和资源分配给早期药物发现之后的步骤,包括 ADME(与“吸收、分布、代谢和排泄”相关的药代动力学特性)和临床前研究中进行的配方优化工作,以及临床试验中进行的安全性和有效性研究。为了使一种药物从热门药物发展成为候选药物,需要的不仅仅是确认分子与其靶标结合。药物开发过程还需要了解可开发性、免疫原性、脱靶效应、热稳定性、溶解度和聚集倾向,目前尚不存在用于监督模型学习的大型、高质量公共数据集。
虽然药物发现从根本上来说是一个理解扰动的问题,但没有相当于 PDB 的存储库来理解响应扰动的细胞表型,甚至跨疾病状态的蛋白质组学数据。将细胞数据与临床数据联系起来存在更大的差距,因为与治疗结果和试验反应相关的患者水平组学概况存在于医院系统和生物制药数据库中,这使得几乎不可能训练模型来预测哪些患者在参加试验之前会对特定治疗产生反应。这些正是决定分子最终能否成为批准药物的特性,这意味着最具商业意义的预测也是数据基础设施最薄弱的预测。
当今可用的大部分生物数据都是在人工智能生物模型爆炸之前生成的,这意味着它通常缺乏对机器学习有用的特征。注释通常不完整或不标准化,并且重要的上下文(例如使用的细胞环境或实验室设备)很少被捕获或编码到数据集中。在许多情况下,生物数据集根本不具备模型的规模来得出具有统计意义的结论或做出公正的预测。即使存在规模,数据也往往会被模式所孤立——基因组、转录组、病理学和临床结果数据集经常被收集并存放在不同的地方,这使得构建一个数据层让人工智能能够对人类生物学的全貌进行推理变得具有挑战性。
为了真正解锁药物开发的人工智能,我们认为公司应该在两个方面进行投资:首先是生成新颖的多模式生物测量,以扩大我们对疾病的理解,其次是构建具有所需规模、一致性和情境化的数据集,以训练跨不同生物环境的模型。
我们很高兴能够支持多家体现这一原则的公司。蛋白胨正在将原子级生物物理学与超级计算相结合,生成本质上无序蛋白质的专有结构数据,并且感应生物正在组装业界最大、最多样化的 ADMET 数据集之一来训练其 Beacon 模型,最近排名第一的OpenADMET-ExpansionRx 端点预测挑战赛中有 370 多份提交的作品。融合生物正在生成大规模数据集来训练和验证自己的模型,以便与制药和生物技术客户一起部署以进行抗体设计或序列优化,并且地震正在采取管道优先的方法,利用其 IMPACT 平台并行优化新型免疫学生物制剂的多种类药特性。
我们还看到了药物开发下游的进展。例如,诺伊提克正在通过将肿瘤多组学与纵向治疗结果配对来组装肿瘤学中最全面的数据集之一,以及初级门特正在构建应用于脑部疾病的全基因组表观遗传和多组学数据模型。这些数据丰富的疾病特定基础模型旨在实现新的靶标和生物标志物发现、更精确的虚拟细胞模拟扰动模型以及改进的临床试验设计。
2. 跨研发工作流程的代理人工智能
虽然将药物推向市场的成本增加,自 20 世纪 50 年代以来,计算成本呈指数下降,与摩尔定律。如今,药物开发连续过程中计算成本高昂的任务将在几年内大幅降低,而构建技术堆栈以快速适应人工智能不断发展的能力的公司将发现,与那些将人工智能视为固定投资的公司相比,自己拥有越来越显着的结构优势。
计算药物发现工作流程的演变是了解这种适应性在实践中的有用镜头。虽然十年前在内部构建专有的分子建模和模拟工具可能是一个差异化因素,但大量现成的计算机工具已经改变了这种防御性的叙述。结构预测器、ADMET 模型和分子动力学模拟器已经非常成熟,现在可以通过闭源架构和开源存储库广泛访问,这通常使得在整个生态系统中战略性地镶嵌工具而不是从头开始构建更加节省时间和资源。随着新的基础模型的出现、新的训练技术的发展以及新的硬件实现更高的计算效率,同样的逻辑也适用。
公司应该从第一天起就构建基础设施,以便能够测试、实施和利用最新的工具,而不是固定在任何单一堆栈上。如今,这种模块化基础设施看起来就像一个系统,可以自主地利用和协调特定任务的最佳工具,无论是文献综述还是运行生物信息学管道。
更便宜的计算使得长上下文推理在经济上变得可行,使人工智能代理能够综合单次运行 1,000 篇论文和 40K 行代码。与提高人工智能准确性和效率的技术(例如链式推理和多代理框架)相结合,人工智能可以有效地压缩研发生命周期的成本和时间,这一点已经变得越来越现实。
智能人工智能科学家可以挖掘预印本服务器、专利申请和公共生物数据库,以发现不明显的联系,生成新颖的假设,进行计算机数据分析,设计湿实验室实验并撰写报告,同时维护整个团队的研究背景和实验的历史记录,使科学家能够做出更明智、更快的决策。
很快,采用涵盖整个药物开发过程的人工智能操作系统将成为标准,利用人工智能保留广泛背景的能力将分析和结果统一到单一研究环境中,而不是让它们孤立在不同的单点解决方案中。
越来越多的公司正在朝着这一愿景迈进,其中包括纯粹专注于生命科学的初创公司和像 Anthropic 这样的前沿实验室,该实验室现在提供连接器将 Claude 与 Benchling、PubMed、ChEMBL、ClinicalTrials.gov 等平台集成。K-密集和爱迪生科学公司正在开发自主人工智能科学家平台,该平台可以端到端地规划、执行和迭代复杂的长期研究工作流程,从假设生成到运行计算实验。菲洛正在与其集成生物环境采取互补方法,这是一个统一的工作空间,科学家可以在其数据集和分析管道中与人工智能代理无缝协作,而无需在分散的界面之间切换。
公司喜欢马铃薯和召集正在为跨早期药物发现和下游商业化工作流程的生物制药构建操作系统,其中 Potato 作为自主设计和运行实验的基础设施,Convoke 作为记录和行动系统,以加速监管和基于文档的工作流程,将药物推向市场。
3.闭环实验室自动化
即使是使用最前沿人工智能模型的公司也会遇到生成实验数据的限制。尽管结构预测和分子建模取得了巨大进步,但许多计算机模拟在自信地做出任何下游开发决策之前,仍需要在湿实验室中验证输出(例如结合亲和力预测)。除此之外,从基本原理来看,体内功效基本上是不可预测的,后期失败在很大程度上是由药代动力学和毒性特性引起的,而计算机模型未能标记这些特性。鉴于实验结果是生物事实的最终来源,因此这些模型必须不断纳入来自湿实验室的反馈以保证准确性,这一点至关重要。
不幸的是,模型的输出和更新模型先验所需的数据之间的实验周期通常需要数周到数月的时间。湿实验室实验速度缓慢,容易失败,并且依赖于熟练的人力,这使得它们成为缩短药物开发时间的最大瓶颈之一。先导化合物优化的迭代设计-测试-制造-分析周期本身可能需要长达三年的时间,占整个药物开发时间的近四分之一。由于实验验证通常外包给合同研究组织 (CRO),这些时间线进一步延长,其中协调开销、排队时间和数据质量不一致可能会导致每个迭代周期增加数周或数月。将实验能力引入内部变得越来越必要,因为它使团队能够控制数据生成的背景和质量,从而使闭环学习变得有意义。
尽管用于液体处理的 Hamilton 机器人和用于自动合成的 Chemspeed 平台已在实验室中存在了数十年,但它们针对特定点任务的高通量进行了优化,而不是针对整个实验工作流程的自动化和集成。如今,大多数实验室自动化仍然需要大量的人工干预,以在仪器之间传输材料、排除故障并在下一个实验步骤开始之前解释结果,从而在不压缩端到端周期的情况下压缩单个任务。
特别是,自动化机器人实验室设备历来需要专门的自动化工程师来配置仪器并不断为不同的工作流程编写新脚本。用于机器人控制的自然语言界面可以有效地实现自动化功能的民主化,使没有任何机器人或软件工程背景的科学家能够远程自主地运行、监控和迭代实验。机器人技术和物理人工智能的进步可以进一步协调当今人类仍在进行的材料和数据传输。例如,视觉原生系统现在可以自动读取和解释细胞的显微图像,并将结构化数据直接反馈到模型管道中,而无需科学家手动提取和输入结果。
自主实验室的进展为公司在速度和运营支出方面提供了巨大的优势。当竞争对手完成一个循环时,经过五个设计-测试-分析循环训练的模型将更快地复合其生物学理解,并且这种复合直接转化为更好的模型、更好的分子和结构优势,这对于那些依赖传统 CRO 时间表的人来说是非常困难的。通过实验室自动化提高迭代速度的公司还将实现更高的数据一致性、准确性和容量,这强化了我们对大规模生物原生数据需求的首要原则。
实验室自动化领域的公司正在从不同的角度追求这一目标。梅德拉正在构建一个与仪器无关的机器人平台,通用机器人通过物理控制和软件接口与现有实验室设备进行交互。自动机采用实验室编排方法及其 LINQ 平台,提供模块化硬件和软件,将不同的仪器连接到协调的端到端自动化工作流程中。达世生物正在利用机器人技术成为更快、更自动化的 CRO,提供内部自动化所提供的速度和一致性。莱拉科学公司代表了最垂直整合的方法之一,为端到端药物发现和开发建立一个完全自动化的实验室。
生命科学将依靠人工智能运行
我们相信,构建大型生物原生数据集、以人工智能为中心的开发堆栈以及支持快速闭环实验的实验室自动化平台的公司将启用并定义下一代生命科学公司。
我们看到这个市场由三个相互依赖的层组成。处于领先地位的公司生成的数据具有人工智能所需的规模、模式和保真度,以便在整个药物开发过程中产生有意义的发现。它们下面是物理和软件基础设施层,包括工作流程和实验室自动化平台,可以压缩每个阶段的时间线。这三个层次共同代表了人工智能驱动的药物开发中形成的价值链的大部分,这是我们相信下一代生命科学公司将建立的核心投资领域。
如果您正在构建这些类别中的任何一个,或更广泛地构建人工智能和生命科学的交叉点,我们希望与行业内的专家科学家、创始人和领导者建立联系。请联系 Andrew Hedin (ahedin@bvp.com)、Marla Jalbut (mjalbut@bvp.com) 或 Grace Dai (gdai@bvp.com)。