作者:Nikhil
化学合成对于开发医疗应用、材料科学和精细化学品的新分子至关重要。这个过程涉及规划化学反应以产生所需的目标分子,传统上依赖于人类的专业知识。最近的进展转向计算方法来提高逆合成的效率,即从目标分子开始逆向合成,以确定合成它所需的一系列反应。通过利用现代计算技术,研究人员旨在解决合成化学中长期存在的瓶颈,使这些过程更快、更准确。
逆合成的关键挑战之一是准确预测罕见或不常见的化学反应。这些反应虽然不常见,但对于设计新颖的化学途径至关重要。由于训练数据的代表性不足,传统的机器学习模型通常无法预测这些反应。此外,多步骤逆合成计划错误可能会级联,导致无效的合成路线。这种限制阻碍了探索化学合成的创新和多样化途径的能力,特别是在需要不常见反应的情况下。
现有的逆合成计算方法主要集中在单步模型或基于规则的专家系统。这些方法依赖于预定义的规则或广泛的训练数据集,这限制了它们对新的和独特的反应类型的适应性。例如,一些方法使用基于图或基于序列的模型来预测最可能的转换。虽然这些方法提高了常见反应的准确性,但它们通常需要更大的灵活性来解释罕见化学转化的复杂性和细微差别,从而导致全面的逆合成规划存在差距。
来自微软研究院、诺华生物医学研究院和雅盖隆大学的研究人员开发了 Chimera,这是一种用于逆合成预测的集成框架。Chimera 将多个机器学习模型的输出与不同的归纳偏差相结合,通过学习排名机制结合它们的优势。这种方法利用了两种新开发的最先进模型:NeuralLoc(专注于使用图神经网络进行分子编辑)和 R-SMILES 2(一种采用序列到序列 Transformer 架构的从头模型)。通过结合这些模型,Chimera 提高了逆合成预测的准确性和可扩展性。
Chimera 背后的方法依赖于通过排名系统组合其组成模型的输出,该排名系统根据模型一致性和预测置信度分配分数。NeuralLoc 将分子结构编码为图形,从而能够精确预测反应位点和模板。该方法确保预测的转化与已知的化学规则紧密结合,同时保持计算效率。同时,R-SMILES 2 利用先进的注意力机制(包括 Group-Query Attention)来预测反应路径。该模型的架构还融入了标准化和激活函数的改进,确保卓越的梯度流和推理速度。Chimera 将这些预测结合起来,使用基于重叠的评分对潜在路径进行排名。这种集成确保该框架平衡基于编辑和从头方法的优势,即使对于复杂和罕见的反应也能进行稳健的预测。
Chimera 的性能已根据 USPTO-50K 和 USPTO-FULL 等公开数据集以及专有的 Pistachio 数据集进行了严格验证。在 USPTO-50K 上,Chimera 的前 10 名预测精度比之前最先进的方法提高了 1.7%,证明了其准确预测常见和罕见反应的能力。在 USPTO-FULL 上,它进一步将前 10 名的准确率提高了 1.6%。将模型扩展到 Pistachio 数据集(该数据集包含 USPTO-FULL 数据的三倍多)表明 Chimera 在更广泛的反应中保持了高精度。专家与有机化学家的比较表明,Chimera 的预测始终优于单个模型,证实了其在实际应用中的有效性。
该框架还在包含超过 10,000 个反应的诺华内部数据集上进行了测试,以评估其在分布变化下的稳健性。在这种零样本设置中,没有进行额外的微调,Chimera 与其组成模型相比表现出了卓越的准确性。这凸显了它即使在现实场景中也能跨数据集进行泛化并预测可行的合成途径的能力。此外,Chimera 在多步骤逆合成任务中表现出色,在 SimpRetro 等基准测试中实现了接近 100% 的成功率,显着优于单个模型。该框架能够为具有高度挑战性的分子寻找途径,这进一步凸显了其改变计算逆合成的潜力。
Chimera 通过解决罕见反应预测和多步骤规划的挑战,代表了逆合成预测领域的突破性进展。该框架通过集成不同的模型并采用强大的排名机制,展示了卓越的准确性和可扩展性。凭借其跨数据集泛化的能力并擅长复杂的逆合成任务,Chimera 将加速化学合成的进展,为分子设计的创新方法铺平道路。
查看这纸。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记关注我们 叽叽喳喳并加入我们的 电报频道和 领英 集团奥普。不要忘记加入我们的 60k+ ML SubReddit。
ðě 趋势:LG AI Research 发布 EXAONE 3.5:三个开源双语前沿 AI 级模型,提供无与伦比的指令跟踪和长上下文理解,以实现卓越生成型 AI 的全球领导地位…。