英语轻松读发新版了,欢迎下载、更新

避免机器学习工作流程中这些容易被忽略的错误 — 第 1 部分

2025-01-22 15:04:26 英文原文

作者:Thomas A Dorfer

滥用标识符、不正确的数据分割以及忽略罕见的特征值

Thomas A Dorfer

Towards Data Science

图片由作者提供。

长期以来一直涉足机器学习领域,一件非常令人愉快的事情就是有机会不断学习新东西。新的东西可以是新的工具或方法(考虑到机器学习领域的快速发展,从来不缺少这种东西),但它也可以是我们工作中发现的错误过程从来没有意识到。

其中一些可能非常晦涩难懂,乍一看很难发现。如果这些错误的过程确实溜进了您的模型开发中,则很可能会损害其预测能力,从而损害其可靠性,并最终损害其适用性。

本文是探索机器学习中常见陷阱的系列文章的开始,在本文中,我们将重点关注在预处理阶段和建模阶段都可能发生的三种数据处理错误:

  1. 使用数字标识符作为特征
  2. 随机分区而不是组分区
  3. 包括观测值不充分的特征值

关于《避免机器学习工作流程中这些容易被忽略的错误 — 第 1 部分》的评论


暂无评论

发表评论

摘要

抽象的:本文重点介绍了机器学习中可能会削弱模型可靠性和预测能力的常见陷阱。它介绍了一系列关注数据处理错误的系列,包括使用数字标识符作为特征,对数据集采用随机分区而不是组分区,以及合并观测值不足的特征值。这些问题可能发生在预处理和建模阶段,如果不解决,可能会导致模型性能下降。

相关讨论