英语轻松读发新版了,欢迎下载、更新

使用AI驱动的经验软件加速科学发现

2025-09-09 17:08:56 英文原文

在科学研究中,彻底评估假设对于开发更健壮和全面的答案至关重要,但是所需的工作形成了瓶颈,阻碍了发现的步伐。特别是,许多现代科学研究都取决于计算实验来建模,模拟和分析复杂现象。在这里,假设评估通常需要创建自定义软件,这是一项缓慢而充满挑战的任务。鉴于大语言模型(LLM)的能力越来越高执行传统的编码任务,我们想知道他们是否可以类似地生成高质量的自定义软件来评估和迭代改善科学假设。

今天,我们发布了一篇描述“AI系统旨在帮助科学家撰写专家级经验软件”,使用双子座。作为输入一个定义明确的问题和一种评估手段,我们的系统充当了系统的代码优化研究引擎:它可以提出新颖的方法论和架构概念,将其作为可执行的代码实现,并在经验上验证其性能。然后,它使用数千种代码变体进行搜索和迭代树搜索优化性能。我们使用六个基准测试了我们的系统,这些基准代表了不同的多学科挑战,涵盖了基因组学领域,公共卫生,地理空间分析,神经科学,预测时间序列和数值分析。我们的系统在所有这些基准中都实现了专家级的性能。

经验软件和可记录任务

科学研究本质上是迭代的,通常要求研究人员测试数十个或数百个模型或参数以实现突破。即使对于经验丰富的程序员的科学家,编码,调试和优化软件也非常耗时。手动编码每个新想法的效率缓慢且效率低下,使对潜在解决方案的系统探索几乎是不可能的。

我们系统的核心是经验软件的基础概念。与通常仅通过功能正确性来判断的常规软件不同,经验软件的设计具有主要目标:最大化预定义的质量得分。可以通过应用经验软件有效解决和解决的问题或挑战称为一项可记得的任务。这些可计性的任务在科学,应用数学和工程学中都普遍存在。

它如何工作

我们系统的输入是一项可记录的任务,其中包括问题描述,评分指标以及适合培训,验证和评估的数据。用户还可以提供上下文,例如外部文献的想法,或提供优先级的方法的指令。

然后,该系统生成研究思想,包括已知方法的程序化生殖,优化和重组,从而导致新颖和高度性能的方法。想法是作为可执行代码实现的,系统使用具有上限限制的树搜索策略(灵感来自alphazero)创建一棵软件候选者并确定哪些候选人需要进一步探索。然后,它使用LLM来重写代码以提高其质量得分,并可以详尽而不懈地进行解决方案搜索以空前的规模进行解决方案搜索,从而快速识别高质量的解决方案,从而将探索时间从几个月到数小时或几天减少。作为编码解决方案,它的输出可验证,可解释且可再现。

表现出有效性

对代码生成AI系统的评估历史上一直集中在竞争性编程或软件工程中得出的任务,尽管有价值,但这些任务虽然很有价值,却无法捕捉科学发现固有的各种挑战。我们不仅在编写句法正确的代码方面表现出熟练程度,而且还表明了为六种多样化和挑战性的基准问题生成新颖的解决方案,这些问题推动了当前计算方法和人类专业知识的界限。这些基准的多样性使我们能够集体评估诸如等领域的水平零弹性概括,,,,高维信号处理,,,,不确定性定量,,,,语义解释复杂的数据,以及系统级建模。对于有兴趣重现我们的结果的任何人,公开都可以使用这些基准问题的最高评分解决方案,包括交互式网站探索完整的候选解决方案树。

基因组学:单细胞RNA测序数据的批次整合

单细胞RNA测序(SCRNA-SEQ)是一项强大的技术,可在单个细胞水平上提供基因表达的高分辨率视图。共同分析许多不同数据集所需的一个主要挑战是删除复杂批处理效果在保留真正的生物学信号的同时,存在于样品中。将近300个工具存在用于执行SCRNA-SEQ数据的批处理集成,并开发了多个基准来评估批次效应效应的指标去除和保护生物学变异性的保存。使用开放问题 v2.0.0批量集成基准测试,将13个指标结合到一个总分中,我们的系统发现了40种新的方法,这些方法表现优于顶级专家开发的方法。得分最高的解决方案比最佳发表方法实现了14%的总体改进(战斗)成功结合了两种现有方法(战斗和bbknn)。

公共卫生:预测美国共同199住院

美国Covid-19预测的美国主要基准是COVID-19预测中心(Covidhub),一项大型合作努力,由疾病控制与预防中心(CDC)。Covidhub吸引了数十支专家团队的竞争性和方法论上不同的意见。他们的任务是预测美国所有州及其领土上的新Covid-19,最长达一个月。这些预测使用平均加权间隔得分(WIS),通过总结模型在整个季节的每个每周预测中的所有位置的表现来评估概率预测的质量。然后将个人提交汇总到Covidhub集合模型这被认为是美国预测Covid-19-19的住院的黄金标准。我们的系统产生了14个模型,胜过官方Covidhub合奏。

地理空间分析:遥感图像的分割

高分辨率的语义分割遥感图像是地理空间分析中的常见问题,对于不同的应用至关重要,从监视土地使用,,,,评估人类活动的环境影响, 和管理自然灾害。该任务涉及将类标签准确地分配给图像中的单个像素,需要一个模型来对场景进行空间和上下文的理解,不仅识别存在的对象,而且确切地确定其边界所在的位置。

使用密集标记遥感数据集(DLRSD)基准,该基准使用平均值评估方法联合交叉点(MIOU),我们系统生成的前三种解决方案略优于当前最新水平,MIOU大于0.80。所有三个解决方案都基于现有模型,库和策略。两个杠杆标准UNET ++和U-NET模型,但与预先训练的强大编码器配对成像网。第三次使用Segformer,一种技术的状态变压器基于基于建筑。这三个都采用了广泛的测试时间增加(TTA)。

神经科学:全脑神经活动预测

我们将方法应用于斑马鱼活动预测基准(Zapbench),这是一种预测整个脊椎动物大脑中70,000多个神经元活性的基准。我们的系统发现了一本小说时间序列预测实现最先进的性能,超过所有现有基线的型号。这包括一个计算密集型,基于视频的模型这可以预测3D卷,并且是先前的最高表现解决方案。作为概念的证明,我们还证明了我们的系统可以设计结合生物物理神经元模拟器的混合模型(贾克斯利),为更容易解释的预测模型铺平道路。

尽管这些示例中的每个示例本身都具有引人注目,但我们生成经验软件的系统的普遍性令人震惊。我们还在数学上评估了我们的系统,这些数字评估困难积分的任务。在此任务中,我们的系统生成了一个解决方案,该解决方案正确评估了19个持有的17积分,在哪里标准数值方法失败。最后,我们使用该系统评估了我们的系统关于一般时间序列的预测,并使用一般时间序列预测模型评估(礼品评估)是一个基准,源自28个数据集,这些数据集跨越了七个不同的域,有10个不同的频率,从几秒钟到几年。我们的系统成功地创建了一个统一的,通用的预测库,通过平均爬山攀爬的山坡平均绝对缩放误差在整个礼品评估数据集中。看到有关更多详细信息。

结论

LLM的最新进展已经为全球研究人员提供了新的方法来轻松参与知识和思想,越来越多地将LLM作为自动化科学研究的死记硬背和辛苦工作的一种手段。我们探讨了LLM是否对生产定制软件的无处不在,必不可少的且高度耗时的任务是有用的,以评估和迭代地改善科学假设,这是由于未来的可能性,而科学家可以轻松,快速地,系统地研究了数百种或数千种潜在的潜在解决方案,以激发他们研究的问题和问题。我们的系统很快生成了专家级别的解决方案,从而减少了从几个月到几个小时或几天探索一组想法所需的时间。这有望为从学生到教授的科学家节省大量时间,以专注于真正的创造性和关键挑战,并继续定义和优先考虑科学研究可以帮助解决的基本研究问题和社会挑战。

致谢

我们感谢并感谢手稿的所有合着者的贡献。感谢Shibl Mourad,John Platt,Erica Brand,Katherine Chou,Ronit Levavi Morad,Yossi Matias和James Manyika的支持和领导。

关于《使用AI驱动的经验软件加速科学发现》的评论


暂无评论

发表评论

摘要

已经开发了一种利用双子座的新的AI系统来帮助科学家创建专家级的经验软件,该软件量身定制,用于评估科学假设。该系统通过提出新颖的方法,将其作为可执行代码实现以及通过广泛的搜索迭代来优化性能来生成高质量的自定义软件。在跨越基因组学,公共卫生,地理空间分析,神经科学,时间序列预测和数值分析的六种不同基准测试中,AI证明了每个领域的专家级水平,大大降低了从月至小时或几天进行假设评估所需的时间。这一突破有望通过以前所未有的规模实现对潜在解决方案的系统探索来加速科学发现。