一个新模型预测分子如何溶于不同的溶剂

2025-08-19 09:00:00 英文原文

作者:Anne Trafton | MIT News

使用机器学习,麻省理工学院化学工程师创建了一个计算模型,该模型可以预测任何给定分子在有机溶剂中溶解的良好状态 - 几乎任何药物的合成中的关键步骤。这种类型的预测可以使开发新方法生产药物和其他有用分子变得更加容易。

研究人员说,新模型可以预测溶质将在特定溶剂中溶解的多少,应该有助于化学家在其合成中为任何给定反应选择正确的溶剂。常见的有机溶剂包括乙醇和丙酮,还有数百种也可以用于化学反应中。

麻省理工学院研究生兼新研究的主要作者之一卢卡斯·阿蒂亚(Lucas Attia)说,预测溶解度确实是化学物质(尤其是药物)的合成计划和制造的限制性步骤,因此人们长期以来能够更好地预测溶解度。”

研究人员做了他们的 模型免费提供,许多公司和实验室已经开始使用它。研究人员说,该模型对于识别比一些最常用的工业溶剂危险的溶剂特别有用。

``有一些溶剂可以溶解大多数东西。它们确实很有用,但是他们对环境造成了损害,并且对人们造成了损害,因此许多公司要求您必须最大程度地减少使用您使用的溶剂的数量。”我们的模型对于能够识别下一最佳溶剂非常有用,这对环境的破坏程度要小得多。

霍特·霍特尔(Hoyt Hoth)化学工程学教授兼麻省理工学院倡议主任威廉·格林(William Green)是学习,今天出现在自然通讯。罗伯特·Haslam化学工程学教授帕特里克·道尔(Patrick Doyle)也是该论文的作者。

解决溶解度

新模型从Attia和Burns在MIT课程中共同努力的项目中发展起来,该项目将机器学习应用于化学工程问题。传统上,化学家通过称为亚伯拉罕溶剂化模型的工具预测了溶解度,该工具可用于通过添加分子内化学结构的贡献来估计分子的总体溶解度。尽管这些预测很有用,但其准确性是有限的。

在过去的几年中,研究人员已经开始使用机器学习来做出更准确的溶解度预测。在Burns和Attia开始开发新模型之前,预测溶解度的最先进模型是2022年Greens Lab开发的模型。

该模型被称为Solprop,可以通过预测一组相关特性并使用热力学结合它们来最终预测溶解度。但是,该模型难以预测以前看不见的溶质的溶解度。

Attia说,对于您要开发新分子的药物和化学发现管道,您希望能够提前预测其溶解度的外观。”

现有的溶解度模型效果很好的部分原因是因为没有一个综合数据集可以对其进行培训。但是,在2023年,发布了一个名为BigsoldB的新数据集,该数据集发行了近800篇发表的论文,其中包括有关约800个分子溶解的溶解度的信息,这些分子溶解了大约100多种在合成化学中通常使用的有机溶剂。

Attia和Burns决定尝试在此数据上培训两种不同类型的模型。这两个模型都使用称为嵌入的数值表示分子的化学结构,这些数值表示诸如分子中的原子数量以及哪些原子与其他原子的结合。然后,模型可以使用这些表示来预测各种化学性质。

本研究中使用的一种模型,被称为FastProp,由Burns和Greens Lab中的其他模型融合了静态嵌入。这意味着该模型已经知道每个分子在开始进行任何类型的分析之前都知道每个分子的嵌入。

另一个模型ChemProp在训练过程中学习了每个分子的嵌入,同时它学会了将嵌入的特征与溶解度等性状相关联。该模型跨多个MIT实验室开发,已经用于抗生素发现,脂质纳米颗粒设计和预测化学反应速率等任务。

研究人员在BigsoldB的40,000多个数据点上培训了两种模型,包括有关温度影响的信息,在溶解度中起着重要作用。然后,他们测试了大约1,000个从培训数据中删除的溶质的模型。他们发现,模型的预测比Solprop的预测准确了两到三倍,而先前的最佳模型的预测是预测由于温度而导致的溶解度变化特别准确的。

Burns说,即使在总体实验噪声非常大的情况下,由于温度而导致的溶解度差异很小,这是一个非常积极的迹象,这是一个非常积极的迹象,表明该网络已经正确地了解了潜在的溶解度预测函数。”

准确的预测

研究人员预计,基于ChemProp的模型能够随着它的发展而学习新的表示,将能够做出更准确的预测。但是,令他们惊讶的是,他们发现这两个模型的性能基本相同。研究人员说,这表明其性能的主要局限性是数据的质量,并且基于他们使用的数据,模型在理论上也是可能的。

伯恩斯说:'当您有足够的数据时,ChemProp应始终胜过任何静态嵌入。”``我们被吹走了,看到静态和学习的嵌入在所有不同的子集上的性能上是无法区分的,这向我们表明,此空间中存在的数据限制主导了模型性能。”

研究人员说,如果获得更好的培训和测试数据,那么这些模型可能会变得更加准确 - 理想情况下,一个人或一群人获得的数据以相同的方式进行实验。

使用此类编译的数据集的最大局限性之一是,不同的实验室在执行溶解度测试时使用不同的方法和实验条件。Attia说,这有助于不同数据集之间的可变性。

由于基于FastProp的模型可以更快地进行预测,并且具有更容易适应其他用户的代码,因此研究人员决定将其称为Fastsolv,可供公众使用。多家制药公司已经开始使用它。

伯恩斯说,在整个药物发现管道中都有应用。我们也很高兴看到,在配方和药物发现之外,人们可以使用这种模型。”

该研究部分由美国能源部资助。

关于《一个新模型预测分子如何溶于不同的溶剂》的评论


暂无评论

发表评论

摘要

麻省理工学院的研究人员使用机器学习开发了一种计算模型,该计算模型可以预测有机溶剂中的分子溶解度,可帮助药物合成。该模型有助于化学家选择适当的溶剂进行反应,并且对于确定环境更安全的替代方案特别有用。利用BigSoldB数据集,新模型的表现优于现有模型,其精度要高两到三倍,尤其是在预测溶解度的温度变化方面。尽管最初期望动态学习模型将超过静态嵌入模型,但由于数据质量限制,两者都表现出相似的性能。研究人员制作了他们的模型,Fastsolv,可自由使用,并且已经被制药公司使用了。