超越 ChatGPT 和 DALL-E:电子表格数据正在获得自己的基础机器学习模型,允许用户立即对最多 10,000 行和 500 列的数据集的新数据点进行推断。
一位评论员表示,对于用户使用表格数据进行预测的速度而言,这一发展可能是“革命性的”。
OpenAI 的 ChatGPT 等基础模型是在大量数据集上进行预训练的,为开发人员提供了构建更专业模型的通用基础,而无需进行如此广泛的训练。
弗莱堡大学机器学习教授 Frank Hutter 领导的团队开发了表格机器学习的基础模型,可以根据数据表立即进行推理。基于表格数据(本质上是电子表格数据)的预测在从社交媒体审核到医院决策等各种场景中都很有价值。
斯坦福大学附属斯坦福医疗保健中心的高级数据工程师 Duncan McElfresh 表示:“作者的进展预计将在许多领域产生深远的影响。”
研究,上周发表在《自然》杂志上,解释了团队如何构建基础模型 TabPFN,以从合成数据中学习因果关系,该模型已根据真实场景进行建模,创建数据表,其中各个表列中的条目之间存在因果关系。新模型使用 1 亿个此类合成数据集进行训练,使其能够缩小可能的因果关系范围并将其用于预测。
McElfresh 在一篇随附的文章中表示:“作者的基础模型......非常有效。它可以利用用户的数据集并立即对新数据点做出推断......通过一系列实验,[研究人员]发现对于最多 10,000 行和 500 列的数据集,TabPFN 始终优于其他机器学习方法(自动化或其他方式),它也比其他方法更擅长处理。常见的数据问题,例如缺失值、异常值和无信息特征,传统的机器学习模型需要几分钟甚至几小时的时间来训练,而 TabPFN 可以在几分之一秒内对新数据集进行推断。”
作者在论文中表示,通过提高不同领域的建模能力,TabPFN 可以加速科学发现并增强各个领域的重要决策。
研究人员表示:“这种向基于合成数据训练的基础模型的转变为跨各个领域的表格数据分析开辟了新的可能性。”“未来的工作可以探索创建专门的先验来处理时间序列和多模态数据等数据类型或心电图、神经影像数据和遗传数据等专门模式。随着表格数据建模领域的不断发展,我们相信基础TabPFN 等模型将在增强研究人员能力方面发挥关键作用。”®