今天,我们宣布了下一代 ,这是一个统一的数据、分析和人工智能平台,整合了广泛使用的AWS机器学习和分析能力。其核心是 ,这是一个单一的数据和AI开发环境,旨在进行数据探索、准备和集成、大数据处理、快速SQL分析、模型开发和训练以及生成AI应用程序开发。此次公告还包括AmazonSageMakerLakehouse,这一能力统一了数据湖和数据仓库中的数据,帮助您在单一数据副本上构建强大的分析和人工智能机器学习(AI/ML)应用程序。
除了以上发布,我很高兴地宣布Amazon SageMaker Lakehouse中的数据目录和权限管理功能,帮助您集中连接、发现和管理数据源的权限。
当前组织在不同系统中存储数据,以优化特定用例和规模要求。这往往导致数据孤立在数据湖、数据仓库、数据库和流媒体服务中。分析师和数据科学家在尝试连接和分析来自这些不同来源的数据时面临挑战。他们必须为每个数据源设置专用连接器,管理多个访问策略,通常还需复制数据,这增加了成本并可能导致数据不一致。
新功能通过简化连接、目录化数据源、应用权限的过程,解决了这些挑战,使数据可以通过SageMaker Lakehouse和 进行分析。您可以使用 作为所有数据源的单一元数据存储,无论数据位于何处。这提供了所有可用数据的集中视图。
数据源连接只需创建一次,之后可重复使用,因此您无需重复设置连接。当您连接到数据源时,数据库和表会自动进行目录化并在 中注册。一旦目录化,您可以将这些数据库和表的访问权限授予数据分析师,使他们无需单独连接每个数据源,也无需了解内置数据源的机密。LakeFormation的权限可用于定义跨数据湖、数据仓库和在线事务处理(OLTP)数据源的细粒度访问控制(FGAC)策略,在使用Athena查询时提供一致的执行。数据保持在原始位置,无需耗时且费用高昂的数据传输或重复。您可以在数据目录中创建或重用现有数据源连接,并为多个数据源配置 ,包括 Amazon Simple Storage Service (AmazonS3)、 、 和 (预览版)等。
为了展示这一功能,我使用一个已配置的环境,将AmazonDynamoDB作为数据源。该环境设置了适当的表和数据,有效地演示了这一功能。我将使用SageMaker Unified Studio(预览)接口进行演示。
首先,我访问SageMaker Unified Studio(预览)通过AmazonSageMaker域。在这里,您可以创建和管理项目,这些项目作为共享工作区,使团队成员能够协作、处理数据并共同开发ML模型。创建项目会自动设置AWSGlue Data Catalog数据库,建立Redshift管理存储(RMS)数据的目录,并提供必要的权限。
要管理项目,您可以选择 浏览所有项目 查看现有项目的综合列表,或选择 创建项目 创建新项目。我使用两个现有项目:sales- group,管理员对所有数据拥有完全访问权限;marketing- project,分析师在有限的数据访问权限下工作。这种设置有效地展示了管理员和有限用户访问级别之间的对比。
在此过程中,我为目标数据源Amazon DynamoDB设置一个联邦目录。我在左侧导航栏中选择 数据 ,然后点击 + (加号)以 添加数据 。我选择 添加连接 ,然后选择 下一步 。
接下来,我选择 Amazon DynamoDB ,并点击 下一步 。
接下来,我输入详细信息并选择 添加数据 。现在,我已经在SageMaker Lakehouse中创建了AmazonDynamoDB联邦目录。在这里,您的管理员通过资源策略授予您访问权限。我已在此环境中配置好资源策略。接下来,我将展示如何在SageMakerUnified Studio(预览)中实现细粒度访问控制。
我首先选择 sales-group 项目,该项目是管理员维护并完全访问客户数据的地方。这个数据集包含邮政编码、客户ID和电话号码等字段。为了分析这些数据,我可以使用 使用Athena查询 执行查询。
一旦选择 使用Athena查询 ,查询编辑器会自动启动,提供一个工作区,使我能够针对湖屋撰写和执行SQL查询。这一集成查询环境提供了无缝的数据探索和分析体验。
在第二部分,我切换到 marketing-project 以展示分析师在运行查询时的体验,以观察细粒度访问控制权限是否有效实施。
在第二部分中,我通过切换到 marketing-project 环境演示分析师的视角。这有助于验证细粒度访问控制权限是否已成功实施并有效限制了数据访问。通过示例查询,我们可以观察分析师如何与数据进行交互,同时受限于既定的安全控制。
使用 使用Athena查询 选项,我在表上执行了SELECT语句以验证访问控制。结果确认正如预期,我只能查看 zipcode 和 cust_id 列,而 phone 列根据配置的权限保持受限。
凭借Amazon SageMakerLakehouse中新的数据目录和权限管理功能,您现在可以简化数据操作、增强安全治理,并加速AI/ML开发,同时保持整个数据生态系统的数据完整性和合规性。
Amazon SageMakerLakehouse中的数据目录和权限管理通过联邦查询简化互动分析,连接到统一的目录和权限,提供跨多个数据源定义和执行细粒度安全策略的单一位置,从而实现高性能的查询体验。
您可以在美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、美国东部(俄亥俄州)、欧洲(爱尔兰)和亚太地区(东京)AWS区域使用该功能。
要开始使用此新功能,请访问 文档。
EsraKayabali是AWS的高级解决方案架构师,专精于分析,包括数据仓库、数据湖、大数据分析、批处理和实时数据流以及数据集成。她拥有超过十年的软件开发和解决方案架构经验,并致力于协作学习、知识分享和引导社区的云技术之旅。
Leave a Reply