随着生成式人工智能模型的能力不断增强,您可能已经看到它们如何将简单的文本提示转换为超现实的图像甚至扩展的视频剪辑。
最近,生成式人工智能在帮助化学家和生物学家探索蛋白质和 DNA 等静态分子方面显示出了潜力。像 AlphaFold 这样的模型可以预测分子结构以加速药物发现,并且麻省理工学院协助的 –射频扩散,例如,可以帮助设计新的蛋白质。然而,一个挑战是分子不断移动和摇晃,这对于构建新蛋白质和药物时的建模非常重要。使用物理学(一种称为分子动力学的技术)在计算机上模拟这些运动可能非常昂贵,需要在超级计算机上执行数十亿个时间步。
为了更有效地模拟这些行为,麻省理工学院计算机科学和人工智能实验室 (CSAIL) 和数学系的研究人员开发了一种可以从先前数据中学习的生成模型。该团队的系统称为 MDGen,可以拍摄 3D 分子的帧并模拟接下来会发生的情况(如视频)、连接单独的静态图像,甚至填充缺失的帧。通过按下分子上的“播放按钮”,该工具可能会帮助化学家设计新分子,并仔细研究他们的癌症和其他疾病药物原型与其打算影响的分子结构相互作用的效果。
联合主要作者 Bowen Jing SM –22 表示,MDGen 是一个早期的概念证明,但它表明一个令人兴奋的新研究方向的开始。“早期,生成式人工智能模型会制作一些简单的视频,比如一个人眨眼或一只狗摇尾巴,”CSAIL 的博士生 Jing 说道。– 快进几年,现在我们有了 Sora 或 Veo 等令人惊叹的模型,它们可以以各种有趣的方式发挥作用。我们希望为分子世界灌输类似的愿景,其中动态轨迹就是视频。例如,您可以为模型提供第一帧和第十帧,它会为中间的内容设置动画,或者可以消除分子视频中的噪音并猜测隐藏的内容。
研究人员表示,MDGen 代表了与之前的生成式人工智能类似工作的范式转变,其方式可以实现更广泛的用例。以前的方法是“自回归”,这意味着它们依赖前一个静止帧来构建下一个静止帧,从第一帧开始创建视频序列。相比之下,MDGen 与扩散并行生成帧。这意味着 MDGen 可用于连接端点处的帧,或者除了在初始帧上按播放键之外,还可以对低帧速率轨迹进行“上采样”。
这项工作在去年 12 月神经信息处理系统会议 (NeurIPS) 上发表的一篇论文中进行了介绍。去年夏天,它在国际机器学习会议的 ML4LMS 研讨会上因其潜在的商业影响而获奖。
分子动力学的一些小进步
在实验中,Jing 和他的同事发现 MDGen 的模拟与直接运行物理模拟类似,同时生成轨迹的速度快了 10 到 100 倍。
该团队首先测试了模型接收分子 3D 框架并生成接下来 100 纳秒的能力。他们的系统将连续的 10 纳秒块拼凑在一起,让这些世代达到这个持续时间。该团队发现,MDGen 能够在准确度上与基线模型相媲美,同时在大约一分钟内完成视频生成过程,而这只是基线模型模拟相同动态所需的三个小时的一小部分。
当给定一纳秒序列的第一帧和最后一帧时,MDGen 还会对之间的步骤进行建模。研究人员的系统在超过 100,000 个不同的预测中展示了一定程度的真实性:它在短于 100 纳秒的剪辑上模拟了比基线更可能的分子轨迹。在这些测试中,MDGen 还表现出了对以前从未见过的肽进行概括的能力。
MDGen 的功能还包括在帧内模拟帧、对每个纳秒之间的步骤进行“上采样”,以更充分地捕获更快的分子现象。它甚至可以“修复”分子结构,恢复被删除的分子信息。研究人员最终可以利用这些特征来根据分子不同部分如何移动的规范来设计蛋白质。
玩弄蛋白质动力学
Jing 和共同主要作者 Hannes Stärk 表示,MDGen 是更有效地生成分子动力学方面取得进展的早期迹象。尽管如此,他们仍然缺乏数据来使这些模型在设计药物或分子时立即产生影响,从而诱导化学家希望在目标结构中看到的运动。
研究人员的目标是将 MDGen 从分子建模扩展到预测蛋白质如何随时间变化。“目前,我们正在使用玩具系统,”Stårk 说,他也是 CSAIL 的博士生。– 为了增强 MDGen 对蛋白质建模的预测能力,我们需要以当前的架构和可用数据为基础。我们还没有针对这些类型的模拟的 YouTube 规模的存储库,因此我们希望开发一种单独的机器学习方法,可以加快我们模型的数据收集过程。
目前,MDGen 在模拟肉眼看不见的分子变化方面提供了一条令人鼓舞的前进道路。化学家还可以利用这些模拟来更深入地研究癌症或结核病等疾病的药物原型的行为。
“从物理模拟中学习的机器学习方法代表了科学人工智能领域的一个新兴前沿,”麻省理工学院西蒙斯数学教授、CSAIL 首席研究员兼该论文的资深作者 Bonnie Berger 说道。–MDGen 是一个连接这两个领域的多功能、多用途建模框架,我们非常高兴能够在这个方向上分享我们的早期模型。 –
“对分子状态之间的真实转变路径进行采样是一项重大挑战,”资深作者 Tommi Jaakkola 说道,他是麻省理工学院电气工程和计算机科学教授兼数据、系统和社会研究所 Thomas Siebel 教授,CSAIL 首席研究员。“这项早期工作展示了我们如何通过将生成模型转变为完全模拟运行来应对这些挑战。”
生物信息学领域的研究人员称赞该系统具有模拟分子转化的能力。“MDGen 将分子动力学模拟建模为结构嵌入的联合分布,捕获离散时间步之间的分子运动,”查尔姆斯理工大学副教授 Simon Olsson(未参与这项研究)说道。– MDGen 利用隐藏的学习目标,实现了创新用例,例如过渡路径采样、与修复连接亚稳态相的轨迹进行类比。 –
研究人员在 MDGen 上的工作部分得到了美国国家普通医学科学研究所、美国能源部、国家科学基金会、药物发现和合成机器学习联盟、安利捷诊所 (Abdul Latif Jameel Clinic) 的支持。健康机器学习、国防威胁减少局和国防高级研究计划局。