簡體   English   中英

如何驗證 Azure DataFactory 數據流中的 100 列

[英]How to validate 100's of columns in Azure DataFactory data flow

我有一個數據流需要驗證 Azure 數據工廠中的 200 多個列。 我的源文件是 Excel,我正在使用“斷言”來驗證列。 當我在斷言中給出 5 列進行驗證時,我能夠在調試模式下預覽數據。 但是當我使用所有 200 多列驗證時,它只顯示“獲取數據”然后超時。 有人可以幫助如何快速實現這一目標。 我已經發布了流程並嘗試在 16 核集成運行時上執行它。 還是沒用。 我在等待 30 分鍾后終止了流程。 我的數據集的大小非常小,大約 20 行。

我發現這個官方 MS 文檔記錄了類似的場景看看是否有幫助。

在excel源數據集中,使用range(例如A1:G100)+firstRowAsHeader=false,那么即使列名和計數不同,它也可以從所有Excel文件中加載數據。

解析大型 Excel 文件時超時或性能下降

  • 症狀:

    • 當您創建 Excel 數據集並從連接/存儲、預覽數據、列表或刷新工作表導入模式時,如果 excel 文件很大,您可能會遇到超時錯誤。

    • 當您使用復制活動將數據從 Excel 大文件 (>= 100 MB) 復制到其他數據存儲時,您可能會遇到性能下降或 OOM 問題。

  • 原因

    • 對於 excel 數據集的導入模式、預覽數據和列出工作表等操作,超時為 100 秒和 static。對於大型 Excel 文件,這些操作可能無法在超時值內完成。

    • 復制活動將整個 Excel 文件讀入 memory,然后找到指定的工作表和單元格以讀取數據。 此行為是由於服務使用的底層 SDK。

  • 分辨率

    • 對於導入模式,您可以生成一個較小的示例文件,它是原始文件的子集,並選擇“從示例文件導入模式”而不是“從連接/存儲導入模式”。

    • 要列出工作表,在工作表下拉列表中,您可以單擊“編輯”並輸入工作表名稱/索引。

    • 要將大型 excel 文件(>100 MB)復制到其他商店,您可以使用數據流 Excel 源,它的運動流讀取和性能更好。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM