通过这篇文章,我想研究一个经常被提问者和回答者忽视的问题:如何将数据集划分为训练集和测试集?
在处理监督问题时,通常的做法是将数据集分为(至少)两个部分:训练集和测试集。训练集用于研究现象,而测试集用于验证所学到的信息是否可以在未知数据(即前一阶段不存在的数据)上复制。
许多人通常会遵循标准的、显而易见的方法来做出这个决定。常见但令人兴奋的答案是:我随机划分可用数据,为测试集保留 20% 到 30%。
那些进一步补充了分层随机抽样的概念:即随机抽样,同时保持一个或多个变量的固定比例。想象一下,我们处于二元分类环境中,目标变量的先验概率为 5%。对目标变量进行分层随机抽样,是指获得对目标变量先验保持5%比例的训练集和测试集。
这种推理有时是必要的,例如,在非常不平衡的上下文中进行分类的情况下,但它们并不会增加太多的兴奋