繁体 English 中英

使用 Azure 数据工厂的多步增量加载和处理

[英]Multi Step Incremental load and processing using Azure Data Factory

原文 2022-03-04 03:12:24 4 2 etl/ azure-data-factory/ pipeline/ batch-processing

我想实现增量加载/处理，并在处理后使用Azure 数据工厂将它们存储在不同的地方，例如：

外部数据源（数据是结构化的）-> ADLS（原始）-> ADLS（已处理）-> SQL DB

因此，我需要根据当前日期从源中提取原始数据样本，将它们存储在 ADLS 容器中，然后处理相同的样本数据，将它们存储在另一个 ADLS 容器中，最后 append 处理结果在SQL 数据库中。

ADLS 原始：

2022-03-01.txt

2022-03-02.txt

ADLS 处理：

2022-03-01-processed.txt

2022-03-02-processed.txt

SQL 数据库：

ADLS 处理容器中的所有 txt 文件将被追加并存储在SQL DB中。

因此想检查在必须分批运行的单个管道中实现此目的的最佳方法是什么？

2 个解决方案

您可以使用动态管道实现此目的，如下所示：

在 SQL DB 中创建一个 Config / Metadata.table，您可以在其中放置源表名称、源名称等详细信息。
创建管道如下：
a) 添加一个查找活动，您将在其中创建一个基于您的配置表https://learn.microsoft.com/en-us/azure/data-factory/control-flow-lookup-activity的查询
b) 添加 ForEach 活动并使用 Lookup output 作为 ForEach 的输入https://learn.microsoft.com/en-us/azure/data-factory/control-flow-for-each-activity
c) 在 ForEach 中，您可以添加一个 switch 活动，其中每个 Switch case 区分表或源
d) 在每种情况下添加一个 COPY 或您需要在 RAW 层中创建文件的其他活动
e) 在处理层的管道中添加另一个 ForEach，您可以在其中添加与为 RAW 层所做的类似类型的内部活动，并且在此活动中您可以添加处理逻辑

这样你就可以创建一个单一的管道，也可以创建一个动态的管道，它可以对所有源执行必要的操作

您不能一次重命名多个文件，因此您必须一个接一个地复制文件。

Create a pipeline with tumbling window trigger - 在名为 WindowStartTime 和 WindowEndTime 的触发器和管道中创建两个参数
创建一个GetMetaData活动，使用参数 last modified datetime 并传递 WindowStartTime 和 WindowEndTime 以获取放置在 WindowStartTime 和 WindowEndTime 之间的文件列表
创建一个ForEach活动，传递从Getmetadata收到的数据
在活动内部创建复制活动并从ForEach循环传递文件名
在接收器数据集中传递文件名并连接“_processed/txt”
在为每个以源作为处理层的活动再次传递 WindowStartTime 和 WindowEndTime 之后创建复制活动
此复制活动将读取当天收到的最新文件 append 到 SQL DB

Azure数据工厂增量加载

[英]Incremental load in Azure Data Factory

没有范围 function，步长为 azure 数据工厂

[英]No range function with step in azure data factory

使用数据工厂将原始 JSON 加载到 Azure SQL 中的单行中

[英]Load raw JSON into a single row in Azure SQL using Data Factory

使用 Azure 数据工厂丰富数据

[英]Data enrichment using Azure Data Factory

将最新的文件夹从 azure blob 存储加载到 azure 数据工厂

[英]Load the latest folder from azure blob storage to azure data factory

Azure 数据工厂触发器创建使用 python

[英]Azure data factory trigger creation using python

在 azure 数据工厂中使用 stringify 活动

[英]Using stringify activity in azure data factory

如何使用azure数据工厂替换azure sql数据库中的数据？

[英]how to replace data in azure sql database using azure data factory?

我正在使用 MySQL 的 GCP 数据流到 Bigquery 进行历史数据加载和 CDC/增量加载。我正在获取历史负载但不是增量负载？

[英]I am using GCP datastream for MySQL to Bigquery for historical data load and CDC/incremental load. I am getting historical load but not incremental?

Azure 数据工厂 API

[英]Azure data factory API

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Azure数据工厂增量加载没有范围 function，步长为 azure 数据工厂使用数据工厂将原始 JSON 加载到 Azure SQL 中的单行中使用 Azure 数据工厂丰富数据将最新的文件夹从 azure blob 存储加载到 azure 数据工厂 Azure 数据工厂触发器创建使用 python 在 azure 数据工厂中使用 stringify 活动如何使用azure数据工厂替换azure sql数据库中的数据？我正在使用 MySQL 的 GCP 数据流到 Bigquery 进行历史数据加载和 CDC/增量加载。我正在获取历史负载但不是增量负载？ Azure 数据工厂 API

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM