繁体   English   中英

如何从 Azure 数据湖转换,数据按日期文件夹分区到增量湖

[英]How can I transition from Azure Data Lake, with data partitioned by date folders into delta lake

我拥有一个 azure 数据湖 gen2,其数据按日期时间嵌套文件夹进行分区。

我想为我的团队提供 delta Lake 格式,但我不确定是否应该创建一个新的存储帐户并将数据复制为 delta 格式,或者将当前的 azure 数据湖转换为 delta Lake 格式是否是最佳实践。

有人可以就此事提供任何提示吗?

AFAIK ,Delta 格式仅支持作为内联数据集,并且仅在数据流中,我们可以拥有内联数据集。

所以,我的建议是为此使用数据流。
由于您在日期时间嵌套文件夹中有数据,因此我使用如下示例日期进行了复制。 我在每个文件夹 10 和 9 中上传了一个示例 csv 文件。

在此处输入图像描述

在 ADF 和源 select 内联数据集中创建一个数据流,以提供我们想要的通配符路径。 Select 你的数据格式,这里给我分隔文本。 也提供链接服务。

在此处输入图像描述

假设所有文件的嵌套文件夹结构都相同,请根据您的路径级别提供如下通配符路径。

在此处输入图像描述

现在,创建如下所示的增量格式接收器。

在此处输入图像描述

也提供链接服务。
在接收器设置中,为您的增量文件和更新方法提供文件夹。

在此处输入图像描述

您可以看到执行后在文件夹路径中创建了增量格式文件。

在此处输入图像描述

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM