繁体   English   中英

从 Azure 数据工厂将数据摄取到雪花

[英]Data ingestion to snowflake from Azure data factory

问题:谁能帮我找到一个解决方案,在不使用 azure blob 存储的情况下将数据从 Azure 数据工厂摄取到雪花表。

要求:我们现在有一组存储在雪花表中的客户 ID。我们想要遍历每个客户 ID,并使用 WebAPI 从 Amazon S3 获取所有客户详细信息并将其写回雪花表。 当前系统使用 Azure Databricks(PySpark) POST 客户 ID 并使用 WebAPI 从 S3 获取相关的 json 数据,解析 json 并将其写回雪花。 但是对于一条记录,这个过程至少需要 3 秒,我们不能花那么多时间进行数据摄取,因为我们需要处理大量数据,并且长时间运行 ADB 集群成本更高。 The solution we think is like instead of using python Web API,we can use azure data factory to get data from s3 bucket and ingest it to snowflake table. 由于数据是客户数据,由于隐私规则,我们不应该在将其写入雪花之前将其存储在 azure blob 存储中。我们是否有任何其他方法可以直接从 s3 或通过 ADF 将其写入雪花表不使用 blob 存储。

您可以创建一个 databricks 笔记本并从 s3 读取所有数据,并出于临时目的将数据存储在 dbfs 上,一旦集群终止,这些数据就会被销毁。

ADF -> Databricks Notebook

Databricks
Read from s3 -> create a pyspark dataframe -> filter the data based on your condition -> write to snowflake

好吧,如果您的数据已经在 S3 上,您可以使用COPY INTO命令。 https://docs.snowflake.com/en/user-guide/data-load-s3.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM