AlphaFold 改变了科学。5年后,它仍在不断发展
作者:Sandro Iannaccone
AlphaFold,人工开发的智能系统谷歌深度思维,刚满五岁。在过去的几年里,我们定期报告其情况成功;去年,它荣获诺贝尔化学奖。
在 2020 年 11 月 AlphaFold 首次亮相之前,DeepMind 一直以教授人工智能到在古老的围棋游戏中击败人类冠军。然后它开始玩更严肃的事情,将其深度学习算法瞄准现代科学中最困难的问题之一:蛋白质折叠。结果就是 AlphaFold2,一个能够以原子精度预测蛋白质三维形状的系统。
它的工作最终形成了一个数据库,该数据库现在包含超过 2 亿个预测结构,基本上是整个已知的蛋白质宇宙,并由几乎全球 190 个国家的 350 万名研究人员。大自然文章2021 年发布的描述该算法的文章引用迄今为止 40,000 次。去年,AlphaFold 3 面世,将人工智能的能力扩展到 DNA、RNA 和药物领域。这种转变并非没有挑战——例如——结构性幻觉——在蛋白质的无序区域——但这标志着迈向未来的一步。
为了了解 AlphaFold 未来五年的前景,《连线》杂志采访了 DeepMind 研究副总裁兼科学部门 AI 架构师 Pushmeet Kohli。
连线:Kohli 博士,五年前 AlphaFold 2 的问世被称为生物学界的“iPhone 时刻”。告诉我们从围棋等挑战到蛋白质折叠等基本科学问题的转变,以及您在这一转变中扮演的角色是什么?
普什梅特·科利:从第一天起,科学就一直是我们使命的核心。黛米斯·哈萨比斯谷歌 DeepMind 的创立理念是:人工智能可能是有史以来加速科学发现的最佳工具。游戏始终是一个试验场,也是一种开发我们知道最终能够解决现实世界问题的技术的方法。
我的职责实际上是识别和解决人工智能可以产生变革性影响的科学问题,概述解锁进步所需的关键要素,并召集多学科团队来应对这些重大挑战。AlphaGo 证明了神经网络与规划和搜索相结合可以掌握极其复杂的系统。蛋白质折叠具有相同的特征。关键的区别在于,解决这个问题将释放生物学和医学领域的发现,从而真正改善人们的生活。
我们专注于我所说的“根节点问题”,科学界认为解决方案将具有变革性,但传统方法在未来五到十年内无法实现这一目标。把它想象成一棵知识树——如果你解决了这些根本问题,你就解锁了全新的研究分支。蛋白质折叠绝对是其中之一。
展望未来,我看到了三个关键的机会领域:建立更强大的模型,能够像研究合作伙伴一样真正进行推理并与科学家合作,将这些工具交到地球上每一位科学家的手中,并实现更大胆的抱负,例如创建对完整人类细胞的第一个精确模拟。
我们来谈谈幻觉。您多次强调“马具“架构,将创造性的生成模型与严格的验证器相结合。这种哲学是如何从 AlphaFold 2 演变到 AlphaFold 3 的,特别是现在您使用的扩散模型本质上更具“想象力”并且容易产生幻觉?
核心理念没有改变——我们仍然将创意生成与严格验证结合起来。所发生的变化是我们如何将这一原则应用于更雄心勃勃的问题。
我们始终将问题放在首位。我们并不是在现有技术中寻找合适的地方;而是在现有技术中寻找合适的位置。我们深入了解问题,然后构建解决问题所需的一切。AlphaFold 3 中向扩散模型的转变源于科学的要求:我们需要预测蛋白质、DNA、RNA 和小分子如何相互作用,而不仅仅是单个蛋白质结构。
你提出对扩散模型更具生成性的幻觉担忧是正确的。这就是验证变得更加重要的地方。我们建立了置信度分数,当预测可能不太可靠时发出信号,这对于本质上无序的蛋白质尤其重要。但真正验证该方法的是,五年来,科学家们在实验室中一次又一次地测试了 AlphaFold 的预测。他们信任它,因为它在实践中有效。
你们正在推出“AI 联合科学家”,这是一个基于 Gemini 2.0 构建的代理系统,可以生成并辩论假设。这听起来像是盒子里的科学方法。我们是否正在走向这样一个未来:实验室的“首席研究员”是人工智能,而人类只是验证其实验的技术人员?
我看到正在发生的是科学家们花费时间的方式的转变。科学家一直扮演着双重角色——思考需要解决什么问题,然后弄清楚如何解决它。随着人工智能在“如何”方面提供更多帮助,科学家将有更多自由来关注“什么”或哪些问题实际上值得提出。人工智能可以加速寻找解决方案,有时甚至可以完全自主地寻找解决方案,但从根本上来说,确定哪些问题值得关注仍然是人类的工作。
联合科学家的设计就考虑到了这种伙伴关系。它是一个使用 Gemini 2.0 构建的多代理系统,充当虚拟协作者:识别研究差距、生成假设并提出实验方法。最近,帝国理工学院的研究人员在研究某些病毒如何劫持细菌时使用了它,这为解决抗菌素耐药性开辟了新的方向。但人类科学家设计了验证实验并掌握了对全球健康的重要性。
关键是正确理解这些工具,包括它们的优点和局限性。这种理解使科学家能够负责任且有效地使用它们。
您能否分享一个具体的例子(也许来自您在药物再利用或细菌进化方面的工作),其中人工智能代理存在分歧,并且这种分歧导致了比人类单独工作更好的科学结果?
该系统的工作方式非常有趣。我们有多个双子座模型充当不同的代理人,产生想法,然后辩论和批评彼此的假设。我们的想法是,这种内部反复探索对证据的不同解释,会带来更精致和更具创造性的研究建议。
例如,帝国理工学院的研究人员正在研究某些“海盗噬菌体”——这些劫持其他病毒的迷人病毒——如何设法侵入细菌。了解这些机制可以开辟应对耐药感染的全新方法,这显然是一个巨大的全球健康挑战。
联合科学家为这项工作带来的好处是能够快速分析数十年已发表的研究,并独立得出有关细菌基因转移机制的假设,该假设与帝国理工学院团队花费数年时间开发和实验验证的假设相匹配。
我们真正看到的是,该系统可以极大地压缩假设生成阶段——快速合成大量文献——而人类研究人员仍然设计实验并理解研究结果对患者的实际意义。
展望未来五年,除了蛋白质和材料之外,这些工具还能帮助解决哪些让你夜不能寐的“未解决的问题”?
真正令我兴奋的是了解细胞如何作为完整的系统发挥作用,而破译基因组是实现这一目标的基础。
DNA是生命的食谱,蛋白质是成分。如果我们能够真正理解是什么让我们在基因上与众不同,以及当 DNA 发生变化时会发生什么,我们就能解锁非凡的新可能性。不仅仅是个性化医疗,还有可能设计新的酶来应对气候变化和其他远远超出医疗保健范围的应用。
也就是说,模拟整个细胞是生物学的主要目标之一,但仍有一段路要走。第一步,我们需要了解细胞的最内部结构,即细胞核:准确地说,当遗传密码的每个部分被读取时,信号分子是如何产生的,最终导致蛋白质被组装。一旦我们探索了原子核,我们就可以从内到外进行探索。我们正在为此努力,但这还需要几年时间。
如果我们能够可靠地模拟细胞,我们就可以改变医学和生物学。我们可以在合成之前通过计算测试候选药物,从根本上了解疾病机制,并设计个性化治疗。这确实是您所询问的生物模拟和临床现实之间的桥梁——从计算预测转向帮助患者的实际疗法。
这个故事最初出现在意大利连线并已从意大利语翻译而来。