使用深度学习来提高计算化学和密度功能理论的准确性

Alt text: A dark blue, wavy surface with multiple colorful spheres placed on it. The spheres are in various colors including red, green, blue, yellow, purple, and orange. Each sphere is surrounded by small white particles that appear to be floating around them. The background is a gradient of dark teal to black.

我们很高兴分享我们在解决巨大挑战方面的第一个重大里程碑，该挑战阻碍了数十年来计算化学，生物化学和材料科学的预测能力。通过使用可扩展的深度学习方法，并生成了前所未有的多种多样，高度准确的数据，我们在密度功能理论（DFT）的准确性上取得了突破，这是成千上万的科学家每年使用该方法来模拟原子能水平的物质。在我们的大型培训数据集中表示的化学空间区域内，我们的模型达到了可靠预测实验结果所需的准确性，如在众所周知的基准数据集中所评估W4-17（在新标签中打开）。这消除了将分子和材料设计平衡从实验室实验驱动到由计算模拟驱动的基本障碍。对加速科学发现的含义远远达到了，从药物到电池和绿色肥料的应用。

什么是DFT？

分子和材料由原子制成，它们由它们的电子固定在一起。这些电子充当胶水，确定化学结构的稳定性和特性。准确地计算电子胶的强度和特性对于预测化学反应是否会进行，候选药物分子是否将与其靶蛋白结合，是否适合碳捕获，还是可以优化流量电池以可再生能源存储。不幸的是，蛮力的方法等于求解多电子schrã¶Dinger方程，该方程需要计算，该计算以电子数量成倍扩展。考虑到一个原子具有数十种电子，并且分子和材料具有大量原子，我们很容易最终等待宇宙的年龄完成计算，除非我们将注意力限制在只有几个原子的小型系统上。

DFT由Walter Kohn和1964 - 1965年的合作者推出，是一个真正的科学突破，1998年获得了Kohn诺贝尔化学奖。DFT提供了以准确的方式计算电子胶的计算成本，以从呈额度到cubit到Cobic到Cobit，从而可以执行实用值的计算值，从而使电子胶的计算成本降低。

DFT的巨大挑战是什么？

但是有一个捕捉：确切的重新印象具有小但至关重要的术语。与Kohn证明是普遍的交换相关（XC）功能（即，对于所有分子和材料，都相同），但对于尚无明确表达的表达。60年来，人们为XC功能设计了实用的近似值。杂志科学被称为“淘金热”以设计更好的XC模型追求神的功能（在新标签中打开）。随着时间的流逝，这些近似值已经成长为数百种不同XC功能的动物园，用户通常会选择实验数据作为指导。由于DFT的独特计算成本，现有功能使科学家获得了对各种化学问题的极为有用的见解。但是，当前XC功能的精度和范围有限，这意味着DFT仍主要用于解释实验结果，而不是预测它们。

为什么提高DFT的准确性很重要？

我们可以将目前的计算化学状态与飞机工程和设计状态进行对比。得益于预测性模拟，航空工程师不再需要构建和测试数千种原型来识别一种可行的设计。但是，这正是我们目前在分子和材料科学方面必须做的。我们将数千名潜在候选人发送到实验室，因为计算方法的准确性不足以使预测实验。从实验室到在计算机中实验，我们需要消除当前XC功能准确性不足的基本瓶颈。这相当于在实验中带来DFT计算的错误化学精度，对于大多数化学过程，约为1 kcal/mol。当前近似通常具有大3至30倍的错误。

AI如何有所作为？

AI可以通过直接从高度准确的数据中学习XC功能来改变我们如何用DFT建模分子和材料。目标是了解XC功能如何捕获其输入，电子密度和输出XC能量之间的复杂关系。您可以将密度像胶水一样，在空间区域和其他区域较少的区域。传统上，研究人员使用所谓的概念建立了XC功能近似雅各布的梯子：电子密度日益复杂，手工设计的描述符的层次结构。包括该梯子较高梯级的密度描述符旨在提高准确性，但它以增加计算成本的价格。即使是使用机器学习的几种尝试都存在于这种传统的范式中，从而采取了一种类似于人们在深入学习之前在计算机视觉和语音识别中所做的方法。通过这种方法，至少已经停滞了二十年了。

我们的项目是由直觉驱动的，即一种真正的深度学习方法，即以计算上可扩展的方式直接从数据中学到相关的电子密度表示，有可能彻底改变DFT的准确性，就像深度学习改变了其他领域一样。但是，走这条路的一个重大挑战是，该功能或表示学习非常渴望，而且几乎没有数据太少，无法可靠地检验该假设。

我们在这个里程碑上做了什么？

第一步是生成很多数据。这提出了一个重大挑战，因为数据必须来自多电子schrãdinger方程的准确解决方案，这正是DFT旨在替换的昂贵昂贵的问题。幸运的是，科学界数十年的进步导致了蛮力方法的更聪明，更有效的变体，使得可以计算参考数据的参考数据小的实验精度的分子。尽管这些高准确的方法（也称为波函数方法）对于在应用程序中的常规使用而言太昂贵了，但我们对这些项目进行了故意投资。原因？产生高质量培训数据的前期成本被使用训练有素的XC功能提供了具有成本效益的DFT的长期利益，这一长期利益的长期收益。至关重要的是，我们依靠DFTâ和我们学到的XC功能从小型系统的高准确性数据推广到更大，更复杂的分子的能力。”

有许多不同的高准确波函数方法，每种方法都针对化学空间的不同区域量身定制。但是，它们在大规模上的使用尚未确定，因为它们需要广泛的专业知识 - 小小的方法论可以显着影响我们针对的水平的准确性。因此，我们与Amir Karton教授（在新标签中打开）来自澳大利亚新英格兰大学的一位世界领先的专家，为基本热化学特性开发了公认的基准数据集：雾化能源'破坏分子中所有键所需的能量并将其分离为单个原子。为了创建一个以前所未有的规模来创建雾化能量的训练数据集，我们的Microsoft团队建立了可扩展的管道，以生成高度多样化的分子结构。使用这些结构和大量的Azure通过Microsoft的计算资源加速基础模型研究计划（在新标签中打开），Karton教授应用了高准确性波函数方法来计算相应的能量标签。结果是数据集（在新标签中打开）两个数量级比以前的努力大。我们是发布此数据集的很大一部分（在新标签中打开）向科学界。

数据生成只是挑战的一半。我们还需要针对XC功能的专用深度学习体系结构设计，该体系结构既具有计算上的可扩展性，又能够从电子密度学习有意义的表示以准确预测XC能量。在DFT专家的协助下，我们的机器学习专家团队引入了一系列创新，以解决这些复杂学习问题固有的这些挑战和其他挑战。结果就是Skala，XC功能，可以概括地看不见的分子，达到预测实验所需的准确性。这首先证明了深度学习可以真正破坏DFT：达到实验精度并不需要雅各布梯子的计算昂贵的手工设计特征。取而代之的是，我们可以保留DFT的原始计算复杂性，同时允许XC功能学习如何提取有意义的特征并预测准确的能量。

We compare the accuracy of Skala against the best existing functionals of varying computational cost. The prediction errors are evaluated on two well-known public benchmark datasets: the W4-17 dataset for atomization energies (y axis, mean absolute error) and the GMTKN55 dataset for general main-group chemistry (x axis, weighted total mean absolute deviation, or WTMAD-2 for short). Skala achieves near — 我们将SKALA的准确性与不同计算成本的最佳现有功能进行了比较。在两个众所周知的公共基准数据集上评估了预测误差：用于雾化能量的W4-17数据集（Y轴，平均绝对误差）和GMTKN55数据集用于一般主组化学（X轴，加权总平均绝对偏差，或WTMAD-2）。Skala在雾化能量上达到了接近化学精度（1 kcal/mol）。这是实验室实验预测建模所需的准确性，迄今为止，尚未达到现有功能。Skala在该数据集的单个参考子集上特别效果，达到了0.85 kcal/mol的开创性。在GMTKN55数据集上，Skala以较低的成本显示出表现最好的混合功能的竞争精度。

Skala是一种新的密度，用于使用元与GGGA成分以及D3分散和机器学习的非本地特征的新密度。对SP分子和原子的大约15万精确的能量差异施加了一些确切的限制，而另一些则从拟合到约150,000个精确的能量差异。Skala在主要组分子的大型数据集上达到了高杂种的精度，该数据集与其训练集没有重叠。SKALA的计算成本高于小分子的R2Scan Meta-GGA的计算成本，但对于具有1000个或更多占占用轨道的系统的计算成本大致相同。它的成本似乎仅是标准混合动力车成本的10％，是当地混合动力车成本的1％。由Microsoft密度功能理论家和深入学习专家组成的团队开发的Skala可能是第一个与现有功能竞争计算化学中广泛使用的机器学习密度功能，以及在该功能和相关领域的迹象。Skala从大数据中学到了学历，并由有见地的人类科学家教授。
- 杜兰大学科学与工程学院物理学教授John P. Perdew

在主要组分子的化学空间雾化能的特定区域中，实现了一个具有挑战性的财产，这是一个第一个里程碑，为此我们生成了最初的大量高临界训练数据。在这个基础的基础上，我们使用可扩展的内部数据生成管道扩展了培训数据集，以涵盖更广泛的通用化学反应。除了雾化能量以外的第一个少量培训数据之后，我们已经扩展了模型的准确性，使其与跨更多主要组化学谱的最佳现有XC功能具有竞争力。这促使我们继续发展高准确的数据生成活动，与外部专家（如Amir Karton教授）互动。看到我们的新数据集的创建如何使这些开创性的结果如何为整个化学，生化和材料研究开辟了一条发展的途径，这真令人兴奋。

一起推进计算化学

我们很高兴能与全球计算化学界紧密合作，以加速所有人的进步，并期待在不久的将来公开发布我们的第一个XC功能。”

密度功能理论（DFT）和相关技术是一种核心数字化学技术，支持默克的多样化生命科学，医疗保健和电子业务的进步。但是，过去50年来一直存在的传统DFT方法的局限性限制了其全部潜力。微软研究的创新方法是整合深度学习的方法，代表了一个实质性的飞跃，增强了其准确性，鲁棒性和可扩展性。我们期待着探索这如何推进数字化学工作流程并为未来开辟新的可能性，与我们致力于开发高级算法和技术的承诺，这些算法和技术可以推动默克公司的科学创新。”
Jan Gerit Brandenburg的默克数字化学总监

我们正在进入黄金时代的预测和现实模拟：非常准确的电子结构计算提供了大量一致的数据，可用于训练新颖的机器学习架构，提供精确和计算效率的圣杯。”
<Nicola Marzari教授，材料，EPFL和PSI的理论和模拟主席

我们认为，我们的新功能可以帮助为企业释放新的机会，并渴望在现实世界中共同努力。今天，我们很高兴启动DFT研究的早期访问计划（DFT REAP），并欢迎旗舰开拓者作为第一位参与者。该计划供公司和研究实验室与我们合作，以加快许多行业的创新。要了解有关如何加入该计划的更多信息，请访问： https://aka.ms/dft-reap（在新标签中打开）一个

Microsoft努力增强计算化学的预测能力，反映了迈向模拟前一步的大胆但周到的一步。在旗舰店，我们认为，公开共享的科学基础进步与DFT准确性的这种飞跃一样可以作为创新的强大推动者。这些下一代工具有望通过帮助研究人员以更高的精度和速度来驾驶化学和生物学空间来加速从治疗学到材料科学的广泛领域的发现。”
Junaid Bajwa，医学博士

通过向科学界提供我们的工作，我们希望能够实现广泛的测试并收集有价值的反馈，以指导未来的改进。深度学习首次为通用XC功能的准确，高效且广泛适用的模型提供了清晰且可扩展的路径，该模型可以改变分子和材料的计算设计。

致谢

这项工作是由高度协作和跨学科努力的产物Microsoft科学研究AI，与微软研究加速器的同事合作，微软量子和新英格兰大学。完整的作者列表包括朱利亚·路易斯（Giulia Luise），，，，Chin-Wei Huang，，，，Thijs Vogels ，derk P. Kooi，，，，塞巴斯蒂安·埃勒特（Sebastian Ehlert），，，，斯蒂芬妮·拉尼乌斯（Stephanie Lanius），Klaas J. H. Giesbertz，Amir Karton，Deniz Gunceler，，，，梅根士丹利，，，，Wessel P. Bruinsma，，，，维克多·加西亚·索特拉斯（Victor Garcia Satorras），，，，Marwin Segler，，，，Kenji Takeda，，，，林黄，，，，Xinran Wei，，，，José©Garrido Torres，Albert Katbashev，BâlintMãtâ©，Sâ©Kou-Oumar Kaba，Roberto Sordillo，Yingrong Chen，David B. Williams-Young，克里斯托弗·M·毕晓普（Christopher M. Bishop），，，，扬·赫尔曼（Jan Hermann），，，，Rianne van den Berg和Paola Gori Gorgi。一个 Paola Gori Giorgi.Â

OC

使用深度学习来提高计算化学和密度功能理论的准确性

什么是DFT？

DFT的巨大挑战是什么？

为什么提高DFT的准确性很重要？

AI如何有所作为？

我们在这个里程碑上做了什么？

一起推进计算化学

致谢

关于《使用深度学习来提高计算化学和密度功能理论的准确性》的评论

发表评论

摘要

相关新闻

相关讨论