作者: Donnie Prakoso 2024年12月3日发布于 , , , , , , , , ,
亚马逊 DynamoDB 是一种无服务器的 NoSQL数据库,已经成为超过一百万客户构建低延迟和高扩展应用程序的首选解决方案。随着数据的增长,组织不断寻求从其运营数据中提取宝贵的见解,而这些数据通常存储在 DynamoDB 中。然而,为了在分析和机器学习(ML)使用案例中充分利用亚马逊 DynamoDB中的数据,客户往往需要构建自定义数据管道——这是一项耗时的基础设施工作,对其核心业务贡献有限。
从今天起,您可以通过与 Amazon SageMaker Lakehouse 的零-ETL 集成,仅需几次点击即可运行分析和 ML 工作负载,而无需消耗您 DynamoDB 表的容量。Amazon SageMaker Lakehouse 将所有数据统一在 Amazon S3 数据湖和 AmazonRedshift 数据仓库中,帮助您在单一数据副本上构建强大的分析和 AI/ML 应用程序。
零-ETL 是一组集成,旨在消除或最小化构建 ETL 数据管道的需求。这个零-ETL 集成减少了构建和维护数据管道所需的工程复杂性,从而使用户能够在 Amazon DynamoDB 中运行分析和 ML 工作负载,而不会影响生产工作流。
接下来,我需要为我的亚马逊 DynamoDB 数据设置零-ETL 集成,并通过 数据湖管理 Amazon SageMakerLakehouse。在设置零-ETL 集成之前,您需要完成一些先决条件。如果您想了解更多设置信息,请参考此 页面。
完成所有先决条件后,我可以开始进行此集成。我导航到 控制台,并在 数据集成和 ETL 下选择 零-ETL 集成 。然后,我选择 创建零-ETL 集成 。
在这里,我可以选择我的数据源。我选择 Amazon DynamoDB ,然后点击 下一步 。
接下来,我需要配置源和目标详细信息。在 源详细信息 部分,我选择我的 Amazon DynamoDB 表。在 目标详细信息 部分,我指定我在 AWS Glue 数据目录中设置的 S3 存储桶。
要设置此集成,我需要一个 IAM 角色,以授予 AWS Glue 所需的权限。有关配置 IAM 权限的指导,请访问 页面。此外,如果我尚未为我的 AWS Glue数据目录配置资源策略,我可以选择 为我修复 ,以自动添加所需的资源策略。
在这里,我可以配置输出。在 数据分区 下,我可以使用 DynamoDB 表键进行分区或指定自定义分区键。完成配置后,我点击 下一步 。
因为我选中了 为我修复 复选框,我需要查看所需的更改并选择 继续 ,然后才能继续到下一步。
在下一页面,我可以灵活配置数据加密。我可以使用 或自定义加密密钥。然后,我为集成命名并选择 下一步 。
在最后一步,我需要审查配置。当我感到满意时,我选择 下一步 来创建零-ETL 集成。
初始数据摄取完成后,我的零-ETL 集成将准备就绪。完成时间因我源 DynamoDB 表的大小而异。
如果我导航到左侧导航面板中的 数据目录 下的 表 ,我可以观察到更多细节,包括 架构 。在后台,这个零-ETL 集成使用 将与我的 DynamoDB 数据相关的数据格式及结构转化为 Amazon S3。
最后,我可以确认所有数据都在我的 S3 存储桶中可用。
这个零-ETL 集成显著减少了数据移动的复杂性和操作负担,因此我可以专注于提取洞察,而不是管理管道。
此新的零-ETL 功能现可在以下 AWS区域使用:美国东部(北弗吉尼亚、俄亥俄州)、美国西部(俄勒冈州)、亚太地区(香港、新加坡、悉尼、东京)、欧洲(法兰克福、爱尔兰、斯德哥尔摩)。
探索如何使用亚马逊 DynamoDB 零-ETL 集成与 Amazon SageMaker Lakehouse 精简数据分析工作流。了解更多信息请访问 页面。
祝您构建顺利!
—
![Donnie删除)
Donnie Prakoso 是一名软件工程师,自称咖啡师,以及 AWS 的首席开发者倡导者。在技术行业有超过 17年的经验,经历了电信、银行和初创公司。他现在专注于帮助开发者理解各种技术,将他们的想法转化为执行。他热爱咖啡,并乐于讨论从微服务到 AI / ML的各种话题。
Leave a Reply