繁体   English   中英

Azure 数据工厂管道中的批处理

[英]Batch Processing in Azure Data Factory Pipelines

我是 ADF 管道的新手。 我想从本地 loc 读取文件并以特定大小(2 GB)的批次复制到 ADLS。 例如,如果有 200 个文件,它将读取所有文件并将文件组(< 2GB)顺序传递给下一个进程/管道。 那么,如何在 ADF 中添加文件的大小?

您需要添加一个 If Condition 活动(在活动中搜索 If 条件)。 然后您需要获取要检查的文件的元数据。 在元数据中,您将获得文件的大小。

获取元数据的参考链接

获得元数据后,您可以根据文件大小条件添加批处理活动。

您可以通过多次调用 Get Metadata 活动来获取文件大小,这里有一个很好的例子来说明如何做到这一点。 使用Child Items字段时, Get Metadata活动不返回文件大小。 如果您指定单个文件,您可以获得Size 本地或云数据源的一些其他潜在方法,例如自定义活动 - 例如运行一些批处理命令,Web 活动 - 例如调用存储 api,笔记本 - 例如运行一些 Z23EEEB4347BDD26BFC6B7EE9A3B75

另一种方法是使用 Copy 活动的Max rows per file选项:

在此处输入图像描述

对于给定的表,您可以指定每个文件的最大行数,这将接近 2GB 文件大小,因此采用不同的方法但结果相同。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM