簡體 English 中英

如何驗證 Azure DataFactory 數據流中的 100 列

[英]How to validate 100's of columns in Azure DataFactory data flow

原文 2022-02-22 14:35:12 7 1 azure/ azure-data-factory/ azure-data-factory-pipeline

我有一個數據流需要驗證 Azure 數據工廠中的 200 多個列。 我的源文件是 Excel，我正在使用“斷言”來驗證列。 當我在斷言中給出 5 列進行驗證時，我能夠在調試模式下預覽數據。 但是當我使用所有 200 多列驗證時，它只顯示“獲取數據”然后超時。 有人可以幫助如何快速實現這一目標。 我已經發布了流程並嘗試在 16 核集成運行時上執行它。 還是沒用。 我在等待 30 分鍾后終止了流程。 我的數據集的大小非常小，大約 20 行。

1 個解決方案

我發現這個官方 MS 文檔記錄了類似的場景，看看是否有幫助。

在excel源數據集中，使用range（例如A1:G100）+firstRowAsHeader=false，那么即使列名和計數不同，它也可以從所有Excel文件中加載數據。

解析大型 Excel 文件時超時或性能下降

症狀:

當您創建 Excel 數據集並從連接/存儲、預覽數據、列表或刷新工作表導入模式時，如果 excel 文件很大，您可能會遇到超時錯誤。

當您使用復制活動將數據從 Excel 大文件 (>= 100 MB) 復制到其他數據存儲時，您可能會遇到性能下降或 OOM 問題。

原因：

對於 excel 數據集的導入模式、預覽數據和列出工作表等操作，超時為 100 秒和 static。對於大型 Excel 文件，這些操作可能無法在超時值內完成。

復制活動將整個 Excel 文件讀入 memory，然后找到指定的工作表和單元格以讀取數據。 此行為是由於服務使用的底層 SDK。

分辨率：

對於導入模式，您可以生成一個較小的示例文件，它是原始文件的子集，並選擇“從示例文件導入模式”而不是“從連接/存儲導入模式”。

要列出工作表，在工作表下拉列表中，您可以單擊“編輯”並輸入工作表名稱/索引。

要將大型 excel 文件（>100 MB）復制到其他商店，您可以使用數據流 Excel 源，它的運動流讀取和性能更好。

如何在 Azure Datafactory 派生列表達式生成器中添加 null 值

[英]How to add null value in Azure Datafactory Derived columns expression builder

如果管道失敗，如何停止觸發器 Azure Datafactory

[英]How to stop trigger if pipeline fails Azure Datafactory

從 DataFactory 插入所有並驗證 Oracle 中的重復項

[英]Insert all and validate duplicates in Oracle from DataFactory

當我嘗試使用 DataFactory 將數據從 Azure Blob 復制到 SQL Datawarehouse 時出現異常

[英]Getting exception when i try to copy data from Azure Blob to SQL Datawarehouse using DataFactory

使用 azure 數據工廠中的數據流組合列形成多個 csv 文件

[英]Combine columns form multiple csv files using data flow in azure data factory

如何在 azure 數據工廠復制活動中將 Session 參數傳遞給 Oracle.. 在 Oracle Linkedservice

[英]How to pass Session parameters to Oracle in azure datafactory copy activity.. In Oracle Linkedservice

Azure Datafactory，多層復合體 csv 結構

[英]Azure Datafactory , multi level complex csv structure

使用 Azure 數據工廠數據流將 CSV 文件下沉到 Azure Data Lake Gen2 時如何刪除額外文件？

[英]How to remove extra files when sinking CSV files to Azure Data Lake Gen2 with Azure Data Factory data flow?

Azure Active Directory：如何通過授權代碼流 (MSAL) 獲取用戶的 object id？

[英]Azure Active Directory: how to get user's object id via auth code flow (MSAL)?

Flatten Azure 數據流中出現錯誤？

[英]Getting error in Flatten Azure Data flow?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在 Azure Datafactory 派生列表達式生成器中添加 null 值如果管道失敗，如何停止觸發器 Azure Datafactory 從 DataFactory 插入所有並驗證 Oracle 中的重復項當我嘗試使用 DataFactory 將數據從 Azure Blob 復制到 SQL Datawarehouse 時出現異常使用 azure 數據工廠中的數據流組合列形成多個 csv 文件如何在 azure 數據工廠復制活動中將 Session 參數傳遞給 Oracle.. 在 Oracle Linkedservice Azure Datafactory，多層復合體 csv 結構使用 Azure 數據工廠數據流將 CSV 文件下沉到 Azure Data Lake Gen2 時如何刪除額外文件？ Azure Active Directory：如何通過授權代碼流 (MSAL) 獲取用戶的 object id？ Flatten Azure 數據流中出現錯誤？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM