评估机器学习中的训练测试分割策略:超越基础 - 迈向数据科学

2024-09-30 22:19:05 英文原文

评估机器学习中的训练测试分割策略:超越基础知识

创建适当的测试集并安然入睡。

通过这篇文章,我想研究一个经常被提问者和回答者忽视的问题:如何将数据集划分为训练集和测试集?

在处理监督问题时,通常的做法是将数据集分为(至少)两个部分:训练集和测试集。训练集用于研究现象,而测试集用于验证所学到的信息是否可以在未知数据(即前一阶段不存在的数据)上复制。

许多人通常会遵循标准的、显而易见的方法来做出这个决定。常见但令人兴奋的答案是:我随机划分可用数据,为测试集保留 20% 到 30%。

那些进一步补充了分层随机抽样的概念:即随机抽样,同时保持一个或多个变量的固定比例。想象一下,我们处于二元分类环境中,目标变量的先验概率为 5%。对目标变量进行分层随机抽样,是指获得对目标变量先验保持5%比例的训练集和测试集。

这种推理有时是必要的,例如,在非常不平衡的上下文中进行分类的情况下,但它们并不会增加太多的兴奋

关于《评估机器学习中的训练测试分割策略:超越基础 - 迈向数据科学》的评论


暂无评论

发表评论

摘要

评估机器学习中的训练测试分割策略:超越基础知识创建适当的测试集并安然入睡。训练集用于研究现象,而测试集用于验证所学到的信息是否可以在未知数据(即前一阶段中不存在的数据)上复制。许多人通常遵循标准的、显而易见的方法来做出这个决定。那些更进一步的人添加了分层随机抽样的概念:即随机抽样,同时保持一个或多个变量的固定比例。想象一下,我们处于二元分类环境中,目标变量的先验概率为 5%。