想要利用机器学习能力的组织需要全面的数据准备策略。
数据制备包括制造可用于ML算法的数据集。在许多情况下,这些算法需要访问大量数据。在这些ML算法可以访问该数据之前,需要以适合分析的格式导入,处理和存储它。这涉及复杂的过程以及大型存储和计算能力。
在这里,探索一些亚马逊雅典娜,EMR和RedShift的关键功能 - 三个数据分析服务与SageMaker AI无缝集成,以帮助IT团队导航数据选择过程。了解每种服务的独特优势使企业能够提供更准确,可靠的ML模型。
选择正确的AWS分析服务
Amazon Sagemaker AI是一项由AWS管理的服务,可提供云基础架构,工作流程和开发工具,以在云中构建,训练,部署和维护ML模型。尽管SageMaker AI支持访问多个用于数据准备任务的工具,但应用程序的性质及其数据要求决定了特定ML用例的最佳AWS分析服务。
亚马逊雅典娜
雅典娜是一项查询服务,可使用S3中的数据文件SQL语句。由于它是无服务器,因此用户无需设置任何或管理基础架构。这是一个经济高效的选择,因为用户仅支付他们运行的查询。它也是一项灵活的服务,因为它支持以各种格式的文件,例如JSON,CSV,Apache Orc和Apache Parquet。它也是运行S3中数据的临时查询的最佳选择。
雅典娜的一种常见用例是日志分析以识别问题和故障排除。排队日志数据还可以通过分析性能指标来帮助企业优化其流程。
亚马逊EMR
Amazon EMR,以前是弹性MapReduce,是一项大数据处理服务。它启动并管理运行开源数据分析框架的群集,例如Apache Spark,Apache Hadoop,Apache Flink,Apache Hive和Trino。EMR可以在集群的本地文件系统,Hadoop分布式文件系统(HDFS)或S3中访问数据。尽管EMR使用EC2实例,它还支持无服务器配置。雅典娜可以使用Amazon EMR查询数据,并支持相同的数据格式。
EMR配置群集是需要使用可预测工作负载的长期处理任务并访问HDFS或在S3中访问数据的工作的好选择。
亚马逊红移
RedShift遵循数据仓库模型,其中提取,转换和加载过程从集群中的各种来源存储了大数据集。进入集群后,SQL语句可以分析这些数据集。它是运行需要从多个大表中获取和连接数据的查询的有用工具。RedShift还管理集群的计算基础架构,该基础架构通常在EC2实例上提供。但是,它还可以选择配置无服务器计算能力。
RedShift是可预测的,高体积工作负载的不错选择,该数据已转换为内部并存储在红移集群中。

集成AWS分析服务
Sagemaker Unified Studio是一个集成的开发环境(IDE),可在单个平台中访问AWS的数据,分析和AI/ML功能。它使用其SQL扩展功能与Athena,EMR和RedShift集成到简化数据准备任务。在许多情况下,组织已经将这些服务用于Sagemaker AI之外的数据分析任务。这使重复使用现有基础架构并访问ML建设和培训过程变得更加容易。
AWS胶水管理雅典娜,EMR和RedShift查询的数据源的连接和目录。用户必须确保使用SQL语句通过其IDE接口或SDK API分析其AWS分析服务中的数据。建议先从AWS Analytics服务中首先创建,执行和微调这些SQL语句,然后再从SageMaker AI Workfrows运行这些查询。
记住授予所需的身份和访问管理权限将运行这些数据分析任务的SageMaker域。这些权限必须包括访问相关的S3存储桶,AWS胶水目录和数据库,以及在相应的AWS Analytics服务中执行任务的权限。用户还必须在SageMaker Unified Studio和Data Analytics平台之间配置网络访问,例如VPC路由和安全组。
建议使用这些数据分析集成开始Jupyterlab笔记本中的SQL扩展名。它提供了一个SQL编辑器UI,开发人员可以键入指向AWS胶水管理的连接和数据库的特定SQL命令。亚马逊Q开发人员也可以在Jupyterlab中找到,这是一种有用的基于AI的工具,可以帮助和指导开发人员整个过程。
Ernesto Marquez是并发实验室的所有者兼项目总监,他帮助初创企业在AWS上启动和扩大其应用程序。他喜欢构建无服务器架构,构建数据分析解决方案,实施自动化并帮助客户降低其AWS成本。