数据科学家面临的最大挑战之一是,在处理极大的数据集或高度复杂的机器学习/深度学习模型时,Python 代码的运行时间过长。许多方法已被证明可以有效提高代码效率,例如降维、模型优化和特征选择——这些都是基于算法的解决方案。解决这一挑战的另一个选择是在某些情况下使用不同的编程语言。在今天的文章中,我不会重点讨论基于算法的提高代码效率的方法。相反,我将讨论既方便又易于掌握的实用技术。
为了进行说明,我将使用 Online Retail 数据集,这是一个根据 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可公开可用的数据集。您可以下载原始数据集网上零售数据来自 UCI 机器学习存储库。该数据集包含英国注册非商店在线零售特定时期内发生的所有交易数据。目标是训练一个模型来预测客户是否会重新购买,以下 python 代码用于实现该目标。