OC

登录注册

鹦鹉螺口语

2024-09-30 22:19:05 · 英文原文

评估机器学习中的训练测试分割策略：超越基础 - 迈向数据科学

评估机器学习中的训练测试分割策略：超越基础知识

创建适当的测试集并安然入睡。

通过这篇文章，我想研究一个经常被提问者和回答者忽视的问题：如何将数据集划分为训练集和测试集？

在处理监督问题时，通常的做法是将数据集分为（至少）两个部分：训练集和测试集。训练集用于研究现象，而测试集用于验证所学到的信息是否可以在未知数据（即前一阶段不存在的数据）上复制。

许多人通常会遵循标准的、显而易见的方法来做出这个决定。常见但令人兴奋的答案是：我随机划分可用数据，为测试集保留 20% 到 30%。

那些进一步补充了分层随机抽样的概念：即随机抽样，同时保持一个或多个变量的固定比例。想象一下，我们处于二元分类环境中，目标变量的先验概率为 5%。对目标变量进行分层随机抽样，是指获得对目标变量先验保持5%比例的训练集和测试集。

这种推理有时是必要的，例如，在非常不平衡的上下文中进行分类的情况下，但它们并不会增加太多的兴奋

关于《评估机器学习中的训练测试分割策略：超越基础 - 迈向数据科学》的评论

暂无评论

发表评论

摘要

评估机器学习中的训练测试分割策略：超越基础知识创建适当的测试集并安然入睡。训练集用于研究现象，而测试集用于验证所学到的信息是否可以在未知数据（即前一阶段中不存在的数据）上复制。许多人通常遵循标准的、显而易见的方法来做出这个决定。那些更进一步的人添加了分层随机抽样的概念：即随机抽样，同时保持一个或多个变量的固定比例。想象一下，我们处于二元分类环境中，目标变量的先验概率为 5%。

相关新闻

相关讨论