新颖的人工智能框架结合了实验数据和基于文本的叙述,以加速新蛋白质的搜索

2024-11-06 19:56:13 英文原文

作者:by Jim Collins, Argonne National Laboratory

Argonne team breaks new ground in AI-driven protein design
该团队使用阿贡国家实验室的 Aurora exascale 超级计算机来开发和演示其蛋白质设计的端到端工作流程,实现了 5.57 exaflops 的峰值性能。图片来源:阿贡国家实验室。

美国能源部 (DOE) 阿贡国家实验室领导的研究团队利用人工智能 (AI) 和世界上最快的超级计算机的力量,开发了一种创新的计算框架,以加快新蛋白质的设计。

继今年诺贝尔化学奖表彰计算蛋白质设计方面的进步之后,阿贡国家实验室的人工智能驱动方法已入围著名的戈登贝尔奖的决赛。该年度奖项由计算机协会颁发,旨在表彰在使用计算解决复杂的科学问题。

该团队的 MProt-DPO 框架的关键创新之一是其集成不同类型数据流或“多模式数据”的能力。它将传统的蛋白质序列数据与实验结果、分子模拟甚至基于文本的叙述相结合,提供对每种蛋白质特性的详细见解。这种方法有可能加速蛋白质发现的广泛应用。

阿贡国家实验室计算生物学家阿温德·拉马纳坦 (Arvind Ramanathan) 表示:“假设你想研制一种新疫苗或设计一种酶,可以分解塑料并以环保的方式回收利用。”“我们的人工智能框架可以帮助研究人员从无数的可能性中找到有前途的蛋白质,包括自然界中可能不存在的候选蛋白质。”

探索广阔的蛋白质设计空间

将蛋白质的氨基酸序列映射到其结构和功能是一项长期存在的研究挑战。氨基酸(蛋白质的组成部分)的每种独特排列都可以产生不同的特性和行为。潜在变化的数量之多使得仅通过实验来测试它们是不切实际的。

从长远来看,仅修改 20 个序列中的 3 个氨基酸就可以产生 8,000 种可能的组合。但大多数蛋白质要复杂得多,一些研究目标含有数百到数千个氨基酸。

“例如,如果我们改变 300 个氨基酸蛋白质中 77 个氨基酸的位置,我们就会看到 Googol 的设计空间,或者 10100,独特的可能性,”阿贡计算科学家、一项研究的主要作者 Gautham Dharuman 说道。介绍框架的论文。“这就是为什么我们需要和超级计算机来帮助在合理的时间内探索这个广阔的空间。”

大型语言模型 (LLM) 是 ChatGPT 等聊天机器人的基础,是一种人工智能模型,经过大量数据训练以检测模式并生成新信息。在科学领域,法学硕士帮助研究人员筛选大量数据集,为蛋白质设计等复杂问题提供见解和预测。

利用人工智能和百亿亿次计算能力

构建和培训框架的法学硕士需要使用强大的超级计算机,包括 Aurora百亿亿次系统在阿贡领导计算设施(ALCF)。ALCF 是能源部科学办公室的用户设施。

“我们训练的语言模型大约有数十亿个参数,”ALCF 人工智能和机器学习团队负责人 Venkat Vishwanath 说。“超级计算机不仅对于训练和微调模型至关重要,而且对于运行端到端工作流程也至关重要。这包括进行大规模模拟以验证生成的蛋白质序列的稳定性和催化活性。”

除了 Aurora 之外,该团队还在其他顶级系统上部署了他们的框架:美国能源部橡树岭国家实验室的 Frontier、瑞士国家超级计算中心的 Alps、意大利 CINECA 中心的 Leonardo 以及 NVIDIA 的 PDX 机器。他们在每台机器上实现了超过 1 exaflops 的持续性能(混合精度),在 Aurora 上的峰值性能为 5.57 exaflops。阿贡系统最近在人工智能性能衡量指标中名列前茅,在 HPL-MxP 基准测试中达到 10.6 exaflops。

超过万亿次浮点运算(相当于每秒五千万次计算)凸显了这项工作所需的巨大计算能力。

Vishwanath 表示:“通过调整我们的工作流程以在跨不同架构的多台顶级超级计算机上运行,​​我们展示了该框架的可移植性和可扩展性。”“这很重要,因为它表明研究人员可以使用我们的工具,无论机器或位置如何。”

从首选结果中学习

MProt-DPO 中的 DPO 代表直接偏好优化。DPO 算法通过学习首选或非首选结果来帮助 AI 模型改进。通过采用 DPO 进行蛋白质设计,阿贡国家实验室团队使他们的框架能够从实验反馈和模拟中学习。

“如果你考虑一下 ChatGPT 的工作原理,人类会提供有关响应是否有帮助的反馈。该输入会循环回训练算法,以帮助模型了解你的偏好,”Ramanathan 说。“MProt-DPO 的工作方式类似,但我们用实验和模拟数据取代人类反馈,以帮助 AI 模型了解哪些蛋白质设计最成功。”

虽然像法学硕士这样的生成人工智能技术是为生物系统开发的,但现有工具由于无法整合多模式数据而受到限制。然而,MProt-DPO 包括实验数据和基于文本的叙述,为每种蛋白质的行为提供了更多背景信息。这种方法建立在 Ramanathan 及其同事的早期工作基础上,他们创建了文本引导的蛋白质设计框架

“我们的动机是创建一个框架,可以使用法学硕士和端到端工作流程来生成具有特定感兴趣属性(例如适合度或催化活性)的蛋白质序列,”Dharuman 说。

“然后,DPO 使用这些措施作为反馈来调整法学硕士,使他们能够在后续迭代中生成更优选的结果。我们使用超级计算机来证明,通过将这些反馈纳入设计过程,我们可以大大缩短解决方案的时间。”

拉马纳坦指出,使用实验数据还有助于提高人工智能模型的可信度。

“将经过验证的结果带入设计循环有助于防止模型产生狂野或不切实际的序列的幻觉,”他说。“这导致更可靠的蛋白质设计。”

该团队在两项任务上测试了 MProt-DPO,以展示其处理复杂问题的能力挑战。首先,他们专注于酵母蛋白 HIS7,利用实验数据来提高各种突变的性能。对于第二项任务,他们研究了苹果酸脱氢酶,这种酶在细胞产生能量的过程中发挥着关键作用。他们利用模拟数据优化了酶的设计,以提高其催化效率。

该团队正在与阿贡生物学家合作,在实验室中验证人工智能生成的设计,初步测试表明它们的性能符合预期。

为 AuroraGPT 和自主发现铺平道路

MProt-DPO 的创建还有助于推进阿贡国家实验室更广泛的人工智能科学和自主发现计划。该工具对多模式数据的使用是 AuroraGPT 持续开发工作的核心,AuroraGPT 是一个旨在帮助跨学科自主科学探索的基础模型。

拉马纳坦说:“证明这种方法可以在极端规模上提供强有力的科学成果,是构建更强大的人工智能模型的重要一步。”“它也让我们更接近自主发现,人工智能不仅可以帮助简化实验,还可以帮助简化整个科学过程。”

更多信息:MProt-DPO:通过直接偏好优化打破多模式蛋白质设计工作流程的 ExaFLOPS 障碍,sc24.conference-program.com/pr ❀ d=gb101&sess=sess497

引文:新颖的人工智能框架结合了实验数据和基于文本的叙述,以加速新蛋白质的搜索(2024 年,11 月 6 日)检索日期:2024 年 11 月 6 日来自 https://phys.org/news/2024-11-ai-framework-incorporates-experimental-text.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。

关于《新颖的人工智能框架结合了实验数据和基于文本的叙述,以加速新蛋白质的搜索》的评论


暂无评论

发表评论

摘要

阿贡国家实验室的一个研究团队开发了一种名为 MProt-DPO 的人工智能驱动框架,使用百亿亿级超级计算机来加速蛋白质设计。这种方法整合了多模态数据,包括实验结果和基于文本的叙述,以增强针对各种应用的新蛋白质的发现。该团队在 Aurora 上取得了 5.57 exaflops 的峰值性能,入围戈登贝尔奖决赛。MProt-DPO 通过学习实验反馈来优化蛋白质序列,旨在加速跨学科的科学发现。