英语轻松读发新版了,欢迎下载、更新

解锁计算化学:培训AI模型的创纪录数据集已启动-Berkeley Lab

2025-05-14 17:20:25 英文原文

作者:akovner

如今,开放分子2025,一个前所未有的分子模拟数据集,被释放给科学界,为开发机器学习工具的开发铺平了道路,该工具可以首次准确地对现实世界复杂性的化学反应进行建模。

由Meta和能源部的劳伦斯伯克利国家实验室(Berkeley Lab)共同领导的合作共同领导的广泛资源,可以改变材料科学,生物学和能源技术的研究。

伯克利实验室的化学家和研究科学家,我认为,这将彻底改变人们如何进行化学模拟化学模拟,并能够自信地说。他的团队同事来自六所大学,两家公司和两家国家实验室。

Meta的基本AI研究(FAIR)LAB研究总监Larry Zitnick说,与社区合作构建该数据集并查看我们将带我们创建新的AI模型的地方,我们感到非常兴奋。

开放分子2025或OMOL25是超过1亿个3D分子快照的集合,其特性已通过密度功能理论(DFT)计算。DFT是一种非常强大的工具,用于建模原子相互作用的精确细节,使科学家能够预测每个原子的力和系统的能量,从而决定了分子运动和化学反应,从而确定了更大尺度的特性,例如电解质在电池中如何反应或如何与受体与受体结合对疾病的受体结合。一个 

使用DFT级准确性模拟大型系统的能力将有助于科学家迅速设计新的储能技术,新药物以及其他产品。但是DFT计算需要大量的计算能力,并且随着涉及的分子越来越大的速度,它们的食欲会大大增加,即使具有最大的计算资源,也无法对现实世界复杂性的科学相关分子系统和反应进行建模。

机器学习的最新进展为克服这些局限性提供了一种方法。机器学到的培训在DFT数据中训练的原子间电位(MLIP)可以更快地预测相同口径的10,000倍,从而解锁模拟在标准计算系统上运行时始终无法触及的大原子系统的能力。但是,MLIP的有用性取决于已训练它的数据的数量,质量和广度。输入OMOL25 - 用于培训MLIP构建的最多样化的分子数据集。

建立新资源

创建OMOL25需要大量的计算能力和DFT专业知识。博览会团队利用元的大量计算资源网络来运行数百万个DFT模拟,利用了世界各地的一部分睡着而不是浏览Instagram和Facebook的备用带宽时期。

过去的分子数据集仅限于平均20-30个原子的模拟,并且只有少数良好的元素。OMOL25中的配置更大且更复杂的十倍,其中大多数元素周期表中的350个原子包括重型元素和金属,这些元素和金属具有挑战性,可以准确模拟。数据点捕获了涉及有机和无机分子的大量相互作用和内部分子动力学。

OMOL25耗资60亿小时的OMOL,比以前的任何数据集高10倍。将计算需求从角度看,用1,000个典型的笔记本电脑运行这些计算将需要您50多年的时间。”

AI模型中的飞跃

现在,世界各地的科学家可以开始在OMOL25上训练自己的MLIP。他们还可以使用Fair Lab的开放式通用模型,该模型今天也发布。该通用模型接受了Omol25和Fair Lab的其他开源数据集的培训,它们自2020年以来一直在发布,并旨在用于许多应用程序。但是,随着研究人员学习如何最好地利用大量数据,通用模型和接受数据集培训的任何其他MLIP都将随着时间的推移而改善。

为了衡量和跟踪模型性能,协作提供了评估,这些挑战是分析模型能够准确完成有用任务的挑战。该团队努力进行异常彻底的评估,使研究人员对在数据集中训练的MLIP的功能更有信心。Blau说,一旦您开始使用可变的电荷和旋转的原子债券破裂和改革以及分子,研究人员将对任何ML工具持怀疑态度。

评估还通过友好竞争推动了创新,因为结果是公开排名的。潜在的用户可以看到哪些运行顺利,开发人员可以看到他们的模型如何与他人堆叠在一起。

更好的基准和评估对于进步和推进ML的许多领域至关重要。克里希纳普里扬(Krishnapriyan)协助评估并开发了一部分化学模拟。

在这里,信任尤其至关重要,因为科学家需要依靠这些模型来产生能够转化为科学研究的物理声音结果,”克里希纳普里扬说。

社区,社区

OMOL25是由科学家创建的,目的是满足其社区的未满足需求,并且在项目的各个方面都编织了协作精神。为了策划OMOL25中的内容,该团队从其他人制作的过去数据集开始,因为这些代表了对不同化学专业研究人员重要的分子构型和反应。然后,他们使用高级DFT功能对这些快照进行了更复杂的模拟。接下来,他们希望查看以前没有捕获哪些主要的化学类型,并试图填补空白。

数据集的四分之三由此新内容组成,分为三个主要重点领域:生物分子,电解质和金属复合物(分子围绕中央金属离子排列)。仍然需要涉及聚合物的快照 - 由称为单体的重复单元制成的大分子。即将到来的开放聚合物数据将解决这一问题,这是一个补充项目,其中还包括劳伦斯·利弗莫尔国家实验室的合作者。

OMOL25团队本身是由Academia和Industry跨越的STEM社区的分支联系组成的。Fair的研究科学家Blau和联合领导者Brandon Wood在Kristin Persson,伯克利实验室和加州大学伯克利分校的研究员克里斯汀·佩尔森(Kristin Persson)工作时见面材料项目。伍德,布劳和公平化学研究主管拉里·齐特尼克(Larry Zitnick)于2023年秋季与OMOL25项目联合起来。他们一起招募了他们从加州大学伯克利分校,卡内基·梅隆(UC Berkeley),卡内基·梅隆(Carnegie Mellon),纽约大学,普林斯顿大学,斯坦福大学,斯坦福大学,斯坦福大学,斯坦福大学,剑桥大学,剑桥大学,洛斯·阿拉莫斯国家实验室和普通人。

``这个开放数据集是团队努力的结果,我们可以等待社区如何利用它来探索AI建模的新方向。”伍德说。一个 

Blau补充说:``推断人类可用的能力真的很令人兴奋。”一个 

Blau在OMOL25上的工作是由伯克利实验室实验室指导研究与开发计划(LDRD)计划资助的。他对数据集的电解质建模部分的贡献是由能源科学办公室的一项电池研究计划的储能研究联盟资助的。克里希纳普里扬(Krishnapriyan)的工作由科学科学办公室资助,作为基于离子体的水电解中心的一部分。一个 一个 ###

劳伦斯·伯克利国家实验室

(伯克利实验室)致力于开创性的研究,重点是发现科学和解决方案,以提供丰富而可靠的能源供应。实验室的专业知识涵盖了材料,化学,物理,生物学,地球和环境科学,数学和计算。来自世界各地的研究人员依靠实验室的世界一流的科学设施来进行开创性的研究。伯克利实验室(Berkeley Lab)及其科学家们以16个诺贝尔奖(Nobel)奖所认可的,该团队最大的问题是最大的问题,该奖项成立于1931年。伯克利实验室(Berkeley Lab)是由加利福尼亚大学美国能源系科学办公室管理的国家实验室。

DOE科学办公室是美国物理科学基础研究的最大支持者,并且正在努力应对我们时代最紧迫的挑战。有关更多信息,请访问 energy.gov/science。.

关于《解锁计算化学:培训AI模型的创纪录数据集已启动-Berkeley Lab》的评论


暂无评论

发表评论

摘要

Meta和Lawrence Berkeley国家实验室已释放了开放分子2025(OMOL25),这是一个开创性的分子模拟数据集。该资源包含超过1亿个由密度功能理论计算的3D分子快照,为机器学习模型提供了前所未有的准确性,以预测化学反应。该数据集旨在通过提供大量数据可以比传统DFT计算快10,000倍的训练MLIP的数据来加速材料科学,生物学和能源技术的研究。预计OMOL25可以通过计算限制来实现以前无法实现的大型原子系统的模拟,从而为新药物和能源储能技术的创新铺平了道路。