簡體 English 中英

使用 Azure 數據工廠的多步增量加載和處理

[英]Multi Step Incremental load and processing using Azure Data Factory

原文 2022-03-04 03:12:24 3 2 etl/ azure-data-factory/ pipeline/ batch-processing

我想實現增量加載/處理，並在處理后使用Azure 數據工廠將它們存儲在不同的地方，例如：

外部數據源（數據是結構化的）-> ADLS（原始）-> ADLS（已處理）-> SQL DB

因此，我需要根據當前日期從源中提取原始數據樣本，將它們存儲在 ADLS 容器中，然后處理相同的樣本數據，將它們存儲在另一個 ADLS 容器中，最后 append 處理結果在SQL 數據庫中。

ADLS 原始：

2022-03-01.txt

2022-03-02.txt

ADLS 處理：

2022-03-01-processed.txt

2022-03-02-processed.txt

SQL 數據庫：

ADLS 處理容器中的所有 txt 文件將被追加並存儲在SQL DB中。

因此想檢查在必須分批運行的單個管道中實現此目的的最佳方法是什么？

2 個解決方案

您可以使用動態管道實現此目的，如下所示：

在 SQL DB 中創建一個 Config / Metadata.table，您可以在其中放置源表名稱、源名稱等詳細信息。
創建管道如下：
a) 添加一個查找活動，您將在其中創建一個基於您的配置表https://learn.microsoft.com/en-us/azure/data-factory/control-flow-lookup-activity的查詢
b) 添加 ForEach 活動並使用 Lookup output 作為 ForEach 的輸入https://learn.microsoft.com/en-us/azure/data-factory/control-flow-for-each-activity
c) 在 ForEach 中，您可以添加一個 switch 活動，其中每個 Switch case 區分表或源
d) 在每種情況下添加一個 COPY 或您需要在 RAW 層中創建文件的其他活動
e) 在處理層的管道中添加另一個 ForEach，您可以在其中添加與為 RAW 層所做的類似類型的內部活動，並且在此活動中您可以添加處理邏輯

這樣你就可以創建一個單一的管道，也可以創建一個動態的管道，它可以對所有源執行必要的操作

您不能一次重命名多個文件，因此您必須一個接一個地復制文件。

Create a pipeline with tumbling window trigger - 在名為 WindowStartTime 和 WindowEndTime 的觸發器和管道中創建兩個參數
創建一個GetMetaData活動，使用參數 last modified datetime 並傳遞 WindowStartTime 和 WindowEndTime 以獲取放置在 WindowStartTime 和 WindowEndTime 之間的文件列表
創建一個ForEach活動，傳遞從Getmetadata收到的數據
在活動內部創建復制活動並從ForEach循環傳遞文件名
在接收器數據集中傳遞文件名並連接“_processed/txt”
在為每個以源作為處理層的活動再次傳遞 WindowStartTime 和 WindowEndTime 之后創建復制活動
此復制活動將讀取當天收到的最新文件 append 到 SQL DB

Azure數據工廠增量加載

[英]Incremental load in Azure Data Factory

沒有范圍 function，步長為 azure 數據工廠

[英]No range function with step in azure data factory

使用數據工廠將原始 JSON 加載到 Azure SQL 中的單行中

[英]Load raw JSON into a single row in Azure SQL using Data Factory

使用 Azure 數據工廠豐富數據

[英]Data enrichment using Azure Data Factory

將最新的文件夾從 azure blob 存儲加載到 azure 數據工廠

[英]Load the latest folder from azure blob storage to azure data factory

Azure 數據工廠觸發器創建使用 python

[英]Azure data factory trigger creation using python

在 azure 數據工廠中使用 stringify 活動

[英]Using stringify activity in azure data factory

如何使用azure數據工廠替換azure sql數據庫中的數據？

[英]how to replace data in azure sql database using azure data factory?

我正在使用 MySQL 的 GCP 數據流到 Bigquery 進行歷史數據加載和 CDC/增量加載。我正在獲取歷史負載但不是增量負載？

[英]I am using GCP datastream for MySQL to Bigquery for historical data load and CDC/incremental load. I am getting historical load but not incremental?

Azure 數據工廠 API

[英]Azure data factory API

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Azure數據工廠增量加載沒有范圍 function，步長為 azure 數據工廠使用數據工廠將原始 JSON 加載到 Azure SQL 中的單行中使用 Azure 數據工廠豐富數據將最新的文件夾從 azure blob 存儲加載到 azure 數據工廠 Azure 數據工廠觸發器創建使用 python 在 azure 數據工廠中使用 stringify 活動如何使用azure數據工廠替換azure sql數據庫中的數據？我正在使用 MySQL 的 GCP 數據流到 Bigquery 進行歷史數據加載和 CDC/增量加載。我正在獲取歷史負載但不是增量負載？ Azure 數據工廠 API

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM