今天,我非常高兴地宣布 Amazon SageMaker Lakehouse 全面上市,这是一项统一数据的功能亚马逊简单存储服务(Amazon S3)数据湖和亚马逊红移数据仓库,帮助您在单个数据副本上构建强大的分析以及人工智能和机器学习 (AI/ML) 应用程序。SageMaker Lakehouse 是下一代亚马逊 SageMaker,这是一个数据、分析和人工智能的统一平台,汇集了广泛采用的 AWS 机器学习和分析功能,并提供了分析和人工智能的集成体验。
客户希望利用数据做更多事情。为了更快地推进分析之旅,他们正在选择合适的存储和数据库来存储数据。数据分布在数据湖、数据仓库和不同的应用程序中,形成数据孤岛,导致访问和利用变得困难。这种碎片化会导致重复的数据副本和复杂的数据管道,进而增加组织的成本。此外,客户只能使用特定的查询引擎和工具,因为数据存储的方式和位置限制了他们的选择。这种限制阻碍了他们按照自己的意愿处理数据的能力。最后,不一致的数据访问使客户难以做出明智的业务决策。
SageMaker Lakehouse 通过帮助您统一 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的数据来解决这些挑战。它使您可以灵活地使用与 Apache Iceberg 兼容的所有引擎和工具就地访问和查询数据。借助 SageMaker Lakehouse,您可以集中定义细粒度的权限,并在多个 AWS 服务中强制执行这些权限,从而简化数据共享和协作。将数据导入您的 SageMaker Lakehouse 非常简单。除了无缝访问现有数据湖和数据仓库中的数据之外,您还可以使用操作数据库中的零 ETL,例如亚马逊极光,适用于 MySQL 的 Amazon RDS,亚马逊动态数据库,以及 Salesforce 和 SAP 等应用程序。SageMaker Lakehouse 适合您现有的环境。
开始使用 SageMaker Lakehouse
在本演示中,我使用具有多个 AWS 数据源的预配置环境。我转到 Amazon SageMaker Unified Studio(预览版)控制台,它为您的所有数据和 AI 提供集成开发体验。使用 Unified Studio,您可以通过 SageMaker Lakehouse 无缝访问和查询来自各种来源的数据,同时使用熟悉的 AWS 工具进行分析和 AI/ML。
您可以在此处创建和管理用作共享工作区的项目。这些项目允许团队成员协作、处理数据并共同开发人工智能模型。创建项目会自动设置 AWS Glue 数据目录数据库、为 Redshift 托管存储 (RMS) 数据建立目录并配置必要的权限。您可以通过创建新项目开始或继续现有项目。
要创建一个新项目,我选择创建项目。
我有 2 个项目配置文件选项来构建湖屋并与其交互。第一个是数据分析和 AI-ML 模型开发,您可以在其中分析数据并构建由以下技术支持的 ML 和生成式 AI 模型亚马逊电子病历,AWS胶水、Amazon Athena、Amazon SageMaker AI 和 SageMaker Lakehouse。第二个是SQL分析,您可以在其中使用 SQL 分析 SageMaker Lakehouse 中的数据。对于这个演示,我继续SQL分析。
我在中输入项目名称项目名称字段并选择 SQL分析下 项目简介。我选择继续。
我在下面输入所有参数的值工装。我输入值来创建我的莱克豪斯数据库。我输入值来创建我的Redshift无服务器资源。最后,我在下面输入目录的名称湖屋目录。
在下一步中,我查看资源并选择创建项目。
项目创建后,我观察项目细节。
我去数据在导航窗格中,选择 +(加号)以添加数据。我选择创建目录创建一个新目录并选择添加数据。
创建RMS目录后,我选择建造从导航窗格中,然后选择查询编辑器在下面数据分析与整合在 RMS 目录下创建架构,创建表,然后加载包含示例销售数据的表。
在指定的单元格中输入 SQL 查询后,我选择选择数据源从右侧下拉菜单建立与 Amazon Redshift 数据仓库的数据库连接。此连接允许我执行查询并从数据库中检索所需的数据。
一旦数据库连接成功建立,我选择运行全部执行所有查询并监视执行进度,直到显示所有结果。
对于此演示,我使用了两个额外的预配置目录。目录是一个组织 Lakehouse 对象定义(例如架构和表)的容器。第一个是 Amazon S3 数据湖目录 (测试-s3-目录)存储客户记录,其中包含详细的交易和人口统计信息。第二个是 Lakehouse 目录(搅动湖屋)致力于存储和管理客户流失数据。这种集成创建了一个统一的环境,我可以在其中分析客户行为以及客户流失预测。
从导航窗格中,我选择数据并在以下位置找到我的目录莱克豪斯部分。SageMaker Lakehouse 提供多种分析选项,包括与雅典娜查询,使用 Redshift 查询, 和在 Jupyter Lab 笔记本中打开。
请注意,您需要选择 数据分析和 AI-ML 模型开发如果您想使用,请在创建项目时配置文件 在 Jupyter Lab 笔记本中打开选项。如果您选择在 Jupyter Lab 笔记本中打开,您可以通过配置 Iceberg REST 目录,通过 EMR 7.5.0 或 AWS Glue 5.0 使用 Apache Spark 与 SageMaker Lakehouse 进行交互,从而使您能够以统一的方式跨数据湖和数据仓库处理数据。
使用 Jupyter Lab Notebook 进行查询的方式如下:
我继续选择与雅典娜查询。通过此选项,我可以使用 Amazon Athena 的无服务器查询功能直接在 SageMaker Lakehouse 中分析销售数据。选择后与雅典娜查询, 这查询编辑器自动启动,提供一个工作区,我可以在其中针对 Lakehouse 编写和执行 SQL 查询。这种集成查询环境为数据探索和分析提供了无缝体验,并具有语法突出显示和自动完成功能,可提高工作效率。
我也可以使用使用 Redshift 查询针对 Lakehouse 运行 SQL 查询的选项。
SageMaker Lakehouse 为现代数据管理和分析提供全面的解决方案。通过统一对多个来源的数据的访问、支持广泛的分析和机器学习引擎以及提供细粒度的访问控制,SageMaker Lakehouse 可帮助您充分利用数据资产。无论您是使用 Amazon S3 中的数据湖、Amazon Redshift 中的数据仓库,还是操作数据库和应用程序,SageMaker Lakehouse 都能为您提供推动创新和做出数据驱动型决策所需的灵活性和安全性。您可以使用数百个连接器来集成来自不同来源的数据。此外,您还可以利用跨第三方数据源的联合查询功能就地访问和查询数据。
现已上市
您可以通过以下方式访问 SageMaker LakehouseAWS 管理控制台, API,AWS 命令行界面 (AWS CLI), 或者AWS 开发工具包。您还可以通过AWS Glue 数据目录和AWS湖组。SageMaker Lakehouse 已在以下地区推出:美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、美国东部(俄亥俄)、欧洲(爱尔兰)、欧洲(法兰克福)、欧洲(斯德哥尔摩)、亚太地区(悉尼)、亚太地区(香港)香港)、亚太地区(东京)和亚太地区(新加坡)AWS 区域。
有关定价信息,请访问Amazon SageMaker Lakehouse 定价。
有关 Amazon SageMaker Lakehouse 及其如何简化数据分析和 AI/ML 工作流程的更多信息,请访问亚马逊 SageMaker Lakehouse文档。——埃斯拉
â Esra