解读 AI 如何加速数据科学工作流程 - NVIDIA 博客

2024-09-25 13:13:13 英文原文

编者注：这篇文章是 AI Decoded 系列的一部分，该系列通过使技术更易于使用来揭开 AI 的神秘面纱，并向 RTX 工作站和 PC 用户展示新的硬件、软件、工具和加速。

在各个行业中，人工智能正在推动创新并提高效率，但要充分发挥其潜力，必须对技术进行大量高质量数据的培训。

数据科学家在准备这一过程中发挥着关键作用数据，特别是在特定领域的领域，在这些领域中，专门的、通常是专有的数据对于增强 AI 能力至关重要。

为了帮助数据科学家满足日益增长的工作负载需求，NVIDIA 宣布推出 RAPIDS cuDF，这是一个允许用户更多地了解数据的库。轻松处理数据，以零代码更改加速 pandas 软件库。Pandas 是一个灵活、强大且流行的 Python 编程语言数据分析和操作库。借助 cuDF，数据科学家现在可以使用他们首选的代码库，而不会影响数据处理速度。

NVIDIA RTX AI 硬件和技术还可以提高数据处理速度。它们包括功能强大的 GPU，可提供快速有效地加速各个级别的人工智能所需的计算性能，从数据科学工作流程到 PC 和工作站上的模型训练和定制。

数据科学瓶颈

最常见的数据格式是表格数据，它按行和列组织。较小的数据集可以使用 Excel 等电子表格工具进行管理，但是，具有数千万行的数据集和建模管道通常依赖于 Python 等编程语言中的数据帧库。

Python 是数据分析的热门选择，主要是因为 pandas 库，它具有易于使用的应用程序编程接口 (API)。然而，随着数据集大小的增长，pandas 在纯 CPU 系统中的处理速度和效率方面遇到了困难。该库还因处理文本密集型数据集而苦恼，文本密集型数据集是大型语言模型的重要数据类型。

当数据需求超出 pandas 的能力时，数据科学家面临着两难境地：要么忍受缓慢的处理时间，要么采取切换到更高效但不太用户友好的工具的复杂且成本高昂的步骤。

使用 RAPIDS cuDF 加速预处理管道

借助 RAPIDS cuDF，数据科学家可以使用他们喜欢的代码库，而无需使用 RAPIDS cuDF。牺牲处理速度。

RAPIDS 是 GPU 加速 Python 库的开源套件，旨在改进数据科学和分析管道。cuDF 是一个 GPU DataFrame 库，提供类似 pandas 的 API，用于加载、过滤和操作数据。

使用 cuDFs pandas 加速器模式，数据科学家可以在 GPU 上运行现有的 pandas 代码，以利用强大的并行功能处理，并确保代码在必要时切换到 CPU。这种互操作性提供了先进、可靠的性能。

最新版本的 cuDF 支持更大的数据集和数十亿行表格文本数据。这使得数据科学家能够使用 pandas 代码来预处理生成 AI 用例的数据。

在 NVIDIA RTX 支持的 AI 工作站和 PC 上加速数据科学

根据最近的一项研究，57% 的数据科学家使用 PC、台式机或工作站等本地资源进行数据科学。

从 NVIDIA GeForce RTX 4090 GPU 开始，数据科学家可以实现显着的加速。随着数据集的增长和处理变得更加内存密集，与传统的基于 CPU 的解决方案相比，他们可以使用 cuDF 在工作站中使用 NVIDIA RTX 6000 Ada Generation GPU 提供高达 100 倍的性能提升。

数据科学家可以在 NVIDIA AI Workbench 上轻松开始使用 RAPIDS cuDF。这个由容器提供支持的免费开发人员环境管理器使数据科学家和开发人员能够跨 GPU 系统创建、协作和迁移人工智能和数据科学工作负载。用户可以开始使用 NVIDIA GitHub 存储库上提供的多个示例项目，例如 cuDF AI Workbench 项目。

cuDF 默认情况下也可在 HP AI Studio 上使用，HP AI Studio 是一个旨在帮助 AI 的集中式数据科学平台开发人员将他们的开发环境从工作站无缝复制到云端。这使他们能够在无需管理多个环境的情况下设置、开发和协作项目。

cuDF 在 RTX 驱动的 AI PC 和工作站上的优势不仅仅限于原始性能加速。它还：

通过在功能强大的 GPU 上进行固定成本本地开发，无缝复制到本地服务器或云实例，节省时间和金钱。
实现更快的数据处理更快的迭代，使数据科学家能够以交互速度试验、完善数据集并从中获取见解。
提供更有效的数据处理，以便进一步获得更好的模型结果。

数据科学的新时代

随着人工智能和数据科学的不断发展，快速处理和分析海量数据集的能力将成为实现跨行业突破的关键差异化因素。无论是开发复杂的机器学习模型、进行复杂的统计分析还是探索生成式 AI，RAPIDS cuDF 都为下一代数据处理奠定了基础。

NVIDIA 正在通过增加对最流行的数据框架工具的支持来扩展该基础。，包括 Polars，它是增长最快的 Python 库之一，与其他开箱即用的纯 CPU 工具相比，它显着加速了数据处理速度。

Polars 本月宣布了 Polars GPU 引擎的公开测试版，由 RAPIDS cuDF 提供支持。Polars 用户现在可以将已经快如闪电的数据帧库的性能提高高达 13 倍。

借助 RTX AI，未来工程师将拥有无限可能

NVIDIA GPU 无论是在大学数据中心运行、GeForce RTX笔记本电脑或NVIDIA RTX工作站正在加速研究。数据科学领域及其他领域的学生正在增强他们的学习体验，并获得实际应用中广泛使用的硬件的实践经验。

详细了解 NVIDIA RTX PC 和工作站如何帮助学生提高学习水平使用人工智能驱动的工具。

生成式人工智能正在改变各种游戏、视频会议和互动体验。订阅 AI Decoded 时事通讯，了解最新动态和未来动态。

关于《解读 AI 如何加速数据科学工作流程 - NVIDIA 博客》的评论

暂无评论

发表评论

摘要

编者注：这篇文章是 AI Decoded 系列的一部分，该系列通过使技术更易于使用来揭开 AI 的神秘面纱，并为 RTX 工作站和 PC 用户展示新的硬件、软件、工具和加速器。为了帮助数据科学家应对日益增长的工作负载需求，NVIDIA 宣布推出 RAPIDS cuDF（一个允许用户更轻松地处理数据的库），以零代码更改的方式加速 pandas 软件库。随着数据集的增长和处理变得更加内存密集，与传统的基于 CPU 的解决方案相比，他们可以使用 cuDF 在工作站中使用 NVIDIA RTX 6000 Ada Generation GPU 提供高达 100 倍的性能提升。用户可以开始使用 NVIDIA GitHub 存储库上提供的多个示例项目，例如 cuDF AI Workbench 项目。HP AI Studio 默认情况下也提供 cuDF，HP AI Studio 是一个集中式数据科学平台，旨在帮助 AI 开发人员无缝复制其开发环境工作站到云端。数据科学的新时代随着人工智能和数据科学的不断发展，快速处理和分析海量数据集的能力将成为实现跨行业突破的关键差异化因素。