作者:Sam Rodriques
至少在生物学人工智能社区中,当今的流行词是基础模型。每个人都希望将更多事物的更多数据放入更大的模型中。
虚拟细胞模型将使我们能够预测细胞状态将如何响应化学扰动而变化。蛋白质语言模型将使我们能够识别更好的酶来降解塑料或具有更多类似药物特性的蛋白质粘合剂。这些层位于日益可访问的基因组数据之上。未来是光明的。
不过,真正的生物学发现看起来有些不同,我认为,在像 NeurIPS(神经信息处理系统会议)这样的人工智能生物学会议上,真正的生物学家并不多,这一点很能说明问题。我上个月在不列颠哥伦比亚省温哥华参加了该活动。
将这些推动生物发现的基础模型梦想与最新的目录进行对比科学或者自然:
我很难想象这些发现如何脱离多模式生物学基础模型。
这并不是一个稻草人的论点。当然,基础模型有可能识别第一篇论文中的 lncRNA,但我不确定这样的基础模型如何将其与染色质重塑联系起来。
具有足够数据的多模式基础模型还可以潜在地识别与接受某些治疗的黑色素瘤细胞相关的代谢变化,但我不知道该基础模型如何识别这些代谢物在防止 CD8+ T 细胞激活方面的作用。事实上,我认为当今正在开发的任何基础模型都无法产生这些论文中描述的丰富的新生物学见解。然而,这些都是新疗法的基础。
我认为,问题在于机器学习模型在结构化数据上运行得非常好,因此正在构建的所有基础模型都是高度结构化的。将蛋白质序列作为输入并产生蛋白质序列作为输出。将细胞状态和化学扰动作为输入,并产生新的细胞状态作为输出。
然而,生物学的结构很差。lncRNA 见解就是一个很好的例子:我们可以使用什么结构化表示来了解 lncRNA 在调节染色质结构方面的作用?蛋白质模型无法代表它;DNA模型无法代表它;虚拟细胞模型无法代表它。也许一个结合了 RNA 表达和 3D 基因组状态的模型可以代表它,但是该模型如何代表单核细胞的脂质调节呢?
我担心每一个发现都可能需要自己的表示空间。事实上,生物学的本质是,除了整个生物体的原子分辨率真实空间模型之外,可能没有任何表征足以代表与疾病相关的生物现象的多样性。这样的整体生物体模型还很遥远——我们仍然没有一个能够完全代表单个活细胞复杂性的计算机模型。
当然,自然语言除外,它已经发展到能够代表人类能够思考的所有概念。事实上,我认为自然语言对于生物学的发现来说最终是不可避免的,因为它是我们所知道的唯一一种具有足够结构以支持机器学习并且足够灵活以代表生物概念的全部多样性的媒介。
将语言和生物学结合起来的一种方法是使用代理,就像我们在 FutureHouse 中构建的代理一样,FutureHouse 是我在旧金山运营的一个非营利性人工智能实验室。语言代理是语言模型(如 ChatGPT),可以使用文献搜索工具(例如 PubMed)、蛋白质结构预测工具(例如 AlphaFold)、DNA 分析工具(例如 BLAST)等来分析生物数据。和人类一样,但速度更快、规模更大。我们最近部署了我们构建的代理,论文QA2,检索文献并撰写准确且引用的维基百科风格的文章,涵盖了人类基因组中几乎所有蛋白质编码基因。未来,语言代理将能够自动分析实验数据和临床报告,以提供类似于上述《自然》和《科学》论文中的详细生物学假设。
还有其他方法可以将语言和生物学结合起来。只要添加结构化数据类型不限制其表示非结构化概念的能力,将自然语言与蛋白质、DNA、转录组学等相结合的训练模型也将非常高效。
生物学的历史是建立在我们在自然界中发现的用于研究生物现象的工具的基础上的。CRISPR 就是最近的一个有力的例子。正如所有生物学家都知道的那样,尝试从头开始设计事物(几乎)是行不通的。有效的方法是在自然界中寻找事物并重新利用它们。如果事实证明我们的工程表征再次不足以研究生物学,而古老的自然语言只是我们在自然界中发现的另一种工具,必须应用于揭开生物学的奥秘,那将在美学上令人愉悦。