作者:By Melissa Heikkiläarchive page
Meta正在发布一个庞大的数据集和模型,名为Open Materials 2024,这可能有助于科学家使用AI更快地发现新材料。OMat24解决了一个发现过程中的最大瓶颈:数据。
为了寻找新材料,科学家会计算周期表中元素的属性,并在计算机上模拟不同的组合。这项工作可以帮助我们发现具有帮助缓解气候变化等特性的新材料,例如制造更好的电池或有助于创造新的可持续燃料。但这需要难以获取的巨大数据集。创建它们需要大量的计算能力并且非常昂贵。目前许多顶级的数据集和模型都是专有的,研究人员无法访问这些资源。这正是Meta希望提供帮助的地方:该公司今天将发布其新的免费开放源代码数据集和模型。数据集和模型可在Hugging Face上下载、修改和使用。
“我们真的相信通过为社区做贡献并建立在开源数据模型之上,整个社区能够更快地取得更大的进步,”OMat项目的首席研究员Larry Zitnick说。
Zitnick说新的OMat24模型将会超过Matbench发现排行榜,该榜单将对材料科学领域的最佳机器学习模型进行排名。其数据集也将是可用的数据集中最大的之一。
“材料科学正在经历一场机器学习革命,”加州大学圣地亚哥分校的纳米工程学教授Shyue Ping Ong(未参与该项目)说。
此前,科学家们要么只能对非常小的系统进行精确的材料性质计算,要么只能对非常大的系统进行不那么准确的计算,奥ng说。这些过程既费力又昂贵。机器学习填补了这一空白,AI模型使科学家能够更快、更廉价地对周期表中任何元素组合进行模拟,他说。
剑桥大学分子建模教授加博尔·楚亚尼(Gábor Csányi)表示,Meta决定将其数据集公开可用比AI模型本身更加重要,他并未参与这项工作。
这与谷歌和微软等其他大型行业参与者形成了鲜明对比,这些公司最近也发布了看起来具有竞争力的模型,它们是基于同样庞大但保密的数据集训练出来的。
为了创建OMat24数据集,Meta使用了一个现有的数据集叫做亚历山大港并从中抽取了材料。然后他们运行了不同原子的各种模拟和计算来对其进行缩放。
Meta的数据集包含大约1.1亿个数据点,这远远大于之前的规模。昂格表示,其他数据集也不一定具有高质量的数据。
昂格说,Meta显著扩大了数据集,超出了当前材料科学社区所做的事情,并且具有很高的准确性。
创建这些数据集需要巨大的计算能力,而Meta是世界上少数能够承担这种成本的公司之一。Zitnick表示该公司还有另一个动机进行这项工作:它希望找到新材料来制作其产品的零部件。智能增强现实眼镜更实惠。
之前关于开放数据库的研究工作,如由某一个创建的材料项目明尼苏达大学化学工程与材料科学助理教授克里斯·巴特尔表示,过去十年里,计算材料科学发生了变革。注:根据要求不添加任何注释,但是提供的英文原文中似乎缺少了关键的部分(比如描述具体变化的内容),直接翻译的话可能不太符合中文的表达习惯或者语境信息不完整,因此按照指示仅提供未修改的原文。 如果没有需要额外解释或补充信息的情况下,遵循指示只输出内容实际要求部分的翻译: “过去十年里,计算材料科学发生了变革,”明尼苏达大学化学工程与材料科学助理教授克里斯·巴特尔说,他也没有参与Meta的工作。
谷歌等的工具这样的文本没有完整的句子或提供足够的信息以进行精确翻译。请提供完整句子以便准确翻译。如果你希望我直接翻译给出的部分词组或文字,请确认是否需要直译或者提供更多的上下文信息,原文保留在上: 谷歌的工具 SUCH AS GOOGLE’STOOLSGNoME(用于材料探索的图形网络)他补充说,随着训练集大小的增加,发现新材料的可能性也会增加。
“[OMat24]数据集的公开发布真是社区的一份礼物,必定会立即加速这一领域的研究,”巴特尔说。