今天,我非常高兴地宣布Amazon SageMaker Lakehouse的正式推出,这项功能统一了来自Amazon Simple StorageService (Amazon S3)数据湖和数据仓库的数据,助力用户在单一数据副本上构建强大的分析和人工智能/机器学习(AI/ML)应用。SageMakerLakehouse是下一代平台的一部分,它是数据显示、分析和AI的一体化平台,结合了广泛采用的AWS机器学习和分析能力,为用户提供集成的分析和AI体验。
客户希望更高效地利用数据。为了加快他们的分析进程,客户正在选择合适的存储和数据库来存储数据。然而,数据被分散在数据湖、数据仓库和不同的应用程序中,导致数据孤岛,使得数据访问和利用变得困难。这种碎片化也导致了数据副本的重复和复杂的数据管道,从而增加了组织的成本。此外,客户的查询引擎和工具的选择受到存储方式和位置的限制,这影响了他们对数据的处理能力。最后,不一致的数据访问使得客户难以做出明智的商业决策。
SageMaker Lakehouse通过帮助用户统一Amazon S3数据湖和AmazonRedshift数据仓库的数据来解决这些挑战。它为您提供灵活性,允许您使用与ApacheIceberg兼容的所有引擎和工具在原位访问和查询数据。借助SageMakerLakehouse,您可以集中定义细粒度的权限并在多个AWS服务之间强制执行,从而简化数据共享与协作。把数据引入SageMakerLakehouse十分便捷,除了能够无缝访问您现有的数据湖和数据仓库中的数据外,您还可以使用零ETL从操作数据库(如、、)以及Salesforce和SAP等应用程序中获取数据。SageMakerLakehouse可以适配您现有的环境。
在演示中,我将使用一个多来源的预配置环境。访问AmazonSageMaker统一工作室(预览)控制台,这里为您的数据和AI提供了集成开发体验。通过统一工作室,您可以通过SageMakerLakehouse无缝访问和查询来自各种来源的数据,同时使用熟悉的AWS工具进行分析和AI/ML。
在这里,您可以创建和管理项目,作为共享工作区。项目使团队成员能够协作、处理数据和共同开发AI模型。创建项目会自动设置AWSGlue数据目录数据库,为Redshift托管存储(RMS)数据建立目录,并提供必要的权限。您可以选择创建一个新项目,也可以在现有项目中继续工作。
要创建新项目,我会选择 创建项目 。
删除)
我有两个项目配置选项来构建湖仓并与之交互。第一个选项是 数据分析与AI-ML模型开发 ,您可以使用、、Amazon Athena、Amazon SageMakerAI和SageMaker Lakehouse分析数据并构建模型。第二个选项是 SQL分析 ,您可以使用SQL在SageMakerLakehouse中分析数据。对于这次演示,我选择SQL分析 。
在项目名称 字段中输入项目名称,并在项目配置 中选择SQL分析 ,然后单击继续 。
删除)
我在工具 下所有参数输入完毕后,创建我的湖仓 数据库,配置Redshift Serverless 资源,并为我的目录输入名称。
删除)
在下一个步骤中,查看资源并选择创建项目 。
删除)
项目创建后,我检查项目详情。
删除)
在导航窗格中,我点击数据 ,选择加号(+)添加数据。选择创建目录 以创建新目录,并选择添加数据 。
删除)
在建立RMS目录后,我在导航窗格中选择构建 ,然后选择查询编辑器 ,以在RMS目录下创建模式、表,并加载示例销售数据。
删除)
通过在指定单元格输入SQL查询,然后在右侧下拉菜单中选择选择数据源 与AmazonRedshift数据仓库建立数据库连接。这一连接允许我执行查询并从数据库中检索所需数据。
删除)
成功建立数据库连接后,我选择全部运行 以执行所有查询,并监控执行进度,直到所有结果显示完毕。
删除)
在这次演示中,我使用两个额外的预配置目录。目录是组织湖仓对象定义(例如模式和表)的容器。第一个是存储客户记录的AmazonS3数据湖目录(test-s3-catalog ),它包含详细的交易和人口统计信息。第二个是专门用于存储和管理客户流失数据的湖仓目录(churn_lakehouse )。这种集成创造了一个统一的环境,能够分析客户行为及流失预测。
在导航窗格中,我选择数据 并在湖仓 部分查找我的目录。SageMakerLakehouse提供多种分析选项,包括使用Athena查询 、使用Redshift查询 和在Jupyter Lab笔记本中打开 。
注意:如果您希望使用在Jupyter Lab笔记本中打开 的选项,创建项目时需要选择数据分析与AI-ML模型开发 配置。如果您选择在Jupyter Lab笔记本中打开 ,则可以通过EMR 7.5.0或AWS Glue 5.0使用ApacheSpark与SageMaker Lakehouse交互,通过配置Iceberg REST目录,使您能够以统一的方式处理跨数据湖和数据仓库的数据。
删除)
以下是使用Jupyter Lab笔记本进行查询的样子:
![Jupyter删除)
我继续选择使用Athena查询 。通过此选项,我可以直接在SageMaker Lakehouse中使用AmazonAthena的无服务器查询能力来分析销售数据。选择使用Athena查询 后,查询编辑器 会自动启动,提供一个工作区,从中我可以编写和执行SQL查询。这一集成查询环境提供数据探索和分析的无缝体验,支持语法高亮和自动完成功能以提高生产率。
删除)
我还可以选择使用Redshift查询 选项在湖仓中运行SQL查询。
删除)
SageMakerLakehouse为现代数据管理和分析提供了全面的解决方案。通过统一多来源数据的访问、支持各种分析和ML引擎以及提供细粒度的访问控制,SageMakerLakehouse帮助您最大限度地利用数据资产。无论您是与Amazon S3中的数据湖、AmazonRedshift中的数据仓库,还是操作数据库和应用进行工作,SageMakerLakehouse都为您提供所需的灵活性和安全性,以推动创新并做出数据驱动的决策。您可以使用数百个连接器从各种来源集成数据。此外,您还可以以联邦查询能力实现对第三方数据源的数据的原位访问和查询。
您可以通过、API、或访问SageMaker Lakehouse。您也可以通过和访问。SageMakerLakehouse在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、加拿大(中央)、欧洲(爱尔兰)、欧洲(法兰克福)、欧洲(斯德哥尔摩)、欧洲(伦敦)、亚太地区(悉尼)、亚太地区(香港)、亚太地区(东京)、亚太地区(新加坡)、亚太地区(首尔)、南美洲(圣保罗)可用。
有关定价信息,请访问。
欲了解更多关于Amazon SageMaker Lakehouse及其如何简化您的数据分析和AI/ML工作流的信息,请查看。
—
2024年12月6日:更新区域列表
![Esra删除)
EsraKayabali是AWS的高级解决方案架构师,专注于分析,包括数据仓库、数据湖、大数据分析、批处理和实时数据流,以及数据集成。她有超过十年的软件开发和解决方案架构经验。她热衷于协作学习、知识分享,并在社区的云技术旅程中提供指导。
Leave a Reply