长期以来一直涉足机器学习领域,一件非常令人愉快的事情就是有机会不断学习新东西。新的东西可以是新的工具或方法(考虑到机器学习领域的快速发展,从来不缺少这种东西),但它也可以是我们工作中发现的错误过程从来没有意识到。
其中一些可能非常晦涩难懂,乍一看很难发现。如果这些错误的过程确实溜进了您的模型开发中,则很可能会损害其预测能力,从而损害其可靠性,并最终损害其适用性。
本文是探索机器学习中常见陷阱的系列文章的开始,在本文中,我们将重点关注在预处理阶段和建模阶段都可能发生的三种数据处理错误:
- 使用数字标识符作为特征
- 随机分区而不是组分区
- 包括观测值不充分的特征值