繁体   English   中英

将大量数据从 Snowflake 数据库提取到 AWS SageMaker 的最快方法是什么?

[英]What is the fastest way to pull massive amounts of data from Snowflake Database into AWS SageMaker?

将非常大的数据集从 Snowflake 拉入我在 AWS 中的 SageMaker 实例的最快方法是什么? 雪花 python 连接器(我目前使用的)与雪花的火花连接器相比如何?

SageMaker 培训作业,如 S3 作为输入源,但您也可以使用 EFS (NFS) 或 FSx for Lustre,以获得更高的性能

对于 S3,我会使用 AWS Glue 从 Snowflake 读取数据或在 EMR 上使用 Spark,并将数据存储在 S3 的分区中。 如果您的算法支持,分区将允许您将训练分布在多台机器上

Snowflake中也有copy into

理想情况下,您将以 Parquet 格式存储,但 [gzipped] CSV 是 SageMaker 内置算法的通用格式。 如果您使用自己的算法,那么可能是 go 和 Parquet

如果您正在做预测,您也可以使用Amazon Forecast ,但它可能会变得昂贵

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM