作者:by Argonne National Laboratory
随着科学文献的数量不断增长,研究人员正在转向人工智能,以通过数百万的研究论文和发现可以加速新材料发现的见解来筛选。
在美国能源部(DOE)Argonne国家实验室的超级计算机的支持下,Jacqueline Cole及其剑桥大学的团队正在开发AI工具,这些工具会自动开采科学期刊文章以构建结构化材料数据库。然后,这些数据集用于训练旨在简化材料研究的专业语言模型。
科尔说:“目的是在实验室里拥有类似数字助理的东西。”科尔说,她在剑桥皇家工程研究教授材料物理学教授,她是分子工程主管的负责人。“一种通过回答问题并提供反馈来帮助进行实验并指导他们的研究的工具。”
科尔在Argonne领导计算设施(ALCF)的工作始于大约十年前。2016年,她被授予ALCF数据科学计划下的第一批项目之一,该计划扩大了该设施在模拟交叉点上对工作负载的支持,数据科学和机器学习。现在退休的计划帮助使用ALCF资源来发展研究人员社区,以进行AI驱动的科学,并扩大员工的专业知识和能力来支持这一新兴领域。
Venkat Vishwanath,AI和机器学习ALCF的团队领导。“从发展ChemDataExtractor从构建自动数据库的文本挖掘工具研究论文,他们的工作为加速材料设计和发现开辟了新的道路。”
为了表彰该团队的创新工作,科尔和合作者最近以其2025年皇家化学学会的2025年材料化学奖而获得纸“设计到设备的方法可提供全天敏化的太阳能电池。”在这项研究的基础上,Cole继续使用ALCF超级计算机来开发AI工具,旨在加快搜索能源应用,基于光的技术和机械工程的新材料。
科尔最近的工作着重于开发较小,更快,更高效的AI模型来支持材料研究,而没有通常需要训练的大量计算成本大型语言模型(LLMS)从头开始。
LLMS是旨在处理和生成人类语言的AI模型。构建LLM始于在大型数据集(例如文本语料库)上预处理它,以帮助模型学习通用语言模式。这个过程通常需要重要的计算能力。一旦对模型进行了培训,研究人员便会使用较小,更具针对性的数据集对其进行微调,以确保其提供准确和相关的答案。
为了绕过昂贵的预处理过程,Cole及其同事开发了一种从域特异性材料数据和出版结果进入数字发现。使用新算法及其ChemDataExtractor工具,他们将光伏材料的数据库转换为数十万个问答对。这个被称为知识蒸馏的过程以现成的AI模型可以轻松摄入的形式捕获详细的材料信息。
科尔说:“重要的是,这种方法将知识负担从语言模型本身转移了。”“我们不依靠模型来'知道'一切,而是以问题和答案的形式直接访问策划的结构化知识。这意味着我们可以完全跳过预处理,仍然可以实现特定领域的效用。”
科尔的团队使用问答对微调较小的语言模型,该模型的匹配或胜过了经过一般文本训练的较大模型,在特定于领域的任务中的精度高达20%。尽管他们的研究集中在太阳能电池材料上,但该方法可以广泛应用于其他研究领域。
除这项工作外,团队还进行了相关研究,以开发针对材料科学特定领域的语言模型。在一篇论文中出版在科学数据,科尔的团队为材料建立了大量的应力 - 应变特性数据库,这些材料通常用于机械工程领域,例如航空航天和汽车。
研究人员还发展了Mechbert,一种训练有素的语言模型,可以回答有关压力 - 应变属性的问题,该问题在预测压力下的材料行为方面优于标准工具。该研究发表在化学信息与建模杂志。
在另一个最近的研究该团队还发表在同一期刊上,展示了如何使用计算能力降低80%的计算能力,而不是牺牲性能的情况下,使用80%的计算能力来调整语言模型。
这些努力以及科尔团队在过去十年中与ALCF支持一起发表的许多研究,说明了AI如何改变材料科学研究。该团队最近关注提问数据集,使更广泛的社区更容易访问AI模型,为可以为实验者提供更精确和相关的支持的AI工具铺平了道路。
科尔说:“也许一支球队在凌晨3点在一个灯源设施进行了激烈的实验,这发生了意外的事情。”“他们需要一个快速的答案,没有时间筛选所有科学文献。如果他们具有针对相关材料的特定领域语言模型,他们可以提出问题以帮助解释数据,调整其设置并保持实验。”
最终,科尔认为这种方法可以帮助进一步使AI在材料科学领域民主化。她说:“您不需要成为语言模型专家。”“您可以采用现成的语言模型,并仅使用几个GPU,甚至是您自己的个人计算机来对其进行微调。它更像是一种插件方法,它使使用AI的过程更加有效。”
通过对ALCF强大的超级计算机进行繁重的提升,Cole的团队正在推进更有针对性和用户友好的AI工具的开发,这些工具可以帮助材料科学家与不断增长的文学作品保持同步,设计更好的实验,并使发现更快。
更多信息:Zongqian li等人,自动生成问题的问题数据集,具有科学任务中语言模型的特定于领域知识,数字发现(2025)。doi:10.1039/d4dd00307a
Pankaj Kumar等人,一种使用Chemdataextractor自动生成的应力 - 应变性质数据库,科学数据(2024)。doi:10.1038/s41597-024-03979-6
Pankaj Kumar等人,Mechbert:用于提取有关机械应力和应变的化学和性质关系的语言模型,化学信息与建模杂志(2025)。doi:10.1021/acs.jcim.4c00857
Dingyun Huang等人,针对光电应用的语言模型的成本效益域自适应预处理,化学信息与建模杂志(2025)。doi:10.1021/acs.jcim.4C02029
引用:将材料数据变成AI驱动的实验室助理(2025年,9月19日)检索2025年9月19日来自https://phys.org/news/2025-09-materials-ai-power-lab.html
该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。