作者:Keith Cowing
概述ML挑战的流程以及用于培训的数据集。所有准备工作都是按照公平的原则明确进行的,其中策划和数据清洁工作流程存储在GitHub上。CodAbench平台和NERSC计算集群用于评分和排名提交。cs.lg
编者注:当我们将有关天文学和天文地质学探险的团队派往其他世界时,他们将需要变得相当独立。确实,他们的大部分初步研究很可能是偏爱世界的。拥有最好的,最紧凑的工具至关重要。这将用于将三环用在大本营的实地考察和设备上。拥有专家系统,AI,机器智能等。嵌入在我们的三环中,或作为多个传感器和人类使用的研究基础的独立系统,将具有很大的实用性。同样,由于研究人员的带宽和人类研究和分析能力的潜伏期将受到限制,因此Offworld研究地点的任何事情都将极大地加快和关注研究。
科学发现通常是通过找到已知的科学规则未预测的模式或对象来做出的。
通常,这些不符合规范的异常事件或对象表明,管理数据的科学规则是不完整的,需要出现新的东西来解释这些意外的异常值。
发现异常的挑战可能会令人困惑,因为它需要将已知科学行为的完整知识编纂,然后将这些已知行为投射到数据上以寻找偏差。
当利用机器学习时,这会提出一个特殊的挑战,因为我们要求该模型不仅完美地理解科学数据,而且还可以认识到数据何时不一致并且不超出其受过训练的行为的范围。
在本文中,我们提出了三个旨在开发基于机器学习的异常检测的数据集,用于涵盖天体物理学,基因组学和极地科学的不同科学领域。
我们介绍了不同的数据集以及一个方案,以使三个数据集围绕三个数据集的机器学习挑战,可访问,可互操作和可重复使用(公平)。
此外,我们提出了一种概括了未来机器学习挑战的方法,从而实现了更大,更密集的挑战的可能性,最终可能导致科学发现。
伊丽莎白·G·坎波隆(Elizabeth G. Ghosh, Christopher Lawrence, Eric Moreno, Ryan Raikman, Jiaman Wu, Ziheng Zhang, Bayu Adhi, Mohammad Ahmadi Gharehtoragh, Saúl Alonso Monsalve, Marta Babicz, Furqan Baig, Namrata Banerji, William Bardon, Tyler Barna, Tanya Berger-Wolf, Adji BoussoDieng,Micah Brachman,Quentin Buat,David C.Y.Hui, Phuong Cao, Franco Cerino, Yi-Chun Chang, Shivaji Chaulagain, An-Kai Chen, Deming Chen, Eric Chen, Chia-Jui Chou, Zih-Chen Ciou, Miles Cochran-Branson, Artur Cordeiro Oudot Choi, Michael Coughlin, Matteo Cremonesi, Maria Dadarlat, Peter Darch, Malina Desai, Daniel Diaz, Steven Dillmann, Javier Duarte, Isla Duporge, Urbas Ekka, Saba Entezari Heravi, Hao Fang, Rian Flynn, Geoffrey Fox, Emily Freed, Hang Gao, Jing Gao, Julia Gonski, Matthew Graham, Abolfazl Hashemi, Scott Hauck, James Hazelden, Joshua Henry Peterson, Duc Hoang, Wei Hu, Mirco Huennefeld, David Hyde, Vandana Janeja, Nattapon Jaroenchai, Haoyi Jia, Yunfan Kang, Maksim Kholiavchenko, Elham E. Khoda, Sangin Kim, Aditya Kumar, Bo-Cheng Lai, Trung Le, Chi-Wei Lee, JangHyeon Lee, Shaocheng Lee, Suzan van der Lee, Charles Lewis, Haitong Li, Haoyang Li, Henry Liao, Mia Liu, Xiaolin Liu, Xiulong Liu, Vladimir Loncar, Fangzheng Lyu, Ilya Makarov, Abhishikth Mallampalli Chen-Yu Mao, Alexander Michels, Alexander Migala, FaroukMokhtar,Mathieu Morlighem等。(其他50位未显示的作者)
评论:18页的第6个数字要提交自然通讯
主题:机器学习(CS.LG);天体物理学的仪器和方法(Astro-Ph.im)
引用为:arxiv:2503.02112 [cs.lg](或arxiv:2503.02112v1 [cs.lg]此版本)
https://doi.org/10.48550/arxiv.2503.02112
专注于了解更多
提交历史记录
来自:菲利普·哈里斯(Philip Harris)
[V1] 2025年3月3日星期一22:54:07 UTC(37,668 kb)
https://arxiv.org/abs/2503.02112
天体生物学,