![](/img/trans.png)
[英]How to add null value in Azure Datafactory Derived columns expression builder
[英]How to validate 100's of columns in Azure DataFactory data flow
我有一個數據流需要驗證 Azure 數據工廠中的 200 多個列。 我的源文件是 Excel,我正在使用“斷言”來驗證列。 當我在斷言中給出 5 列進行驗證時,我能夠在調試模式下預覽數據。 但是當我使用所有 200 多列驗證時,它只顯示“獲取數據”然后超時。 有人可以幫助如何快速實現這一目標。 我已經發布了流程並嘗試在 16 核集成運行時上執行它。 還是沒用。 我在等待 30 分鍾后終止了流程。 我的數據集的大小非常小,大約 20 行。
我發現這個官方 MS 文檔記錄了類似的場景,看看是否有幫助。
在excel源數據集中,使用range(例如A1:G100)+firstRowAsHeader=false,那么即使列名和計數不同,它也可以從所有Excel文件中加載數據。
解析大型 Excel 文件時超時或性能下降
症狀:
當您創建 Excel 數據集並從連接/存儲、預覽數據、列表或刷新工作表導入模式時,如果 excel 文件很大,您可能會遇到超時錯誤。
當您使用復制活動將數據從 Excel 大文件 (>= 100 MB) 復制到其他數據存儲時,您可能會遇到性能下降或 OOM 問題。
原因:
對於 excel 數據集的導入模式、預覽數據和列出工作表等操作,超時為 100 秒和 static。對於大型 Excel 文件,這些操作可能無法在超時值內完成。
復制活動將整個 Excel 文件讀入 memory,然后找到指定的工作表和單元格以讀取數據。 此行為是由於服務使用的底層 SDK。
分辨率:
對於導入模式,您可以生成一個較小的示例文件,它是原始文件的子集,並選擇“從示例文件導入模式”而不是“從連接/存儲導入模式”。
要列出工作表,在工作表下拉列表中,您可以單擊“編輯”並輸入工作表名稱/索引。
要將大型 excel 文件(>100 MB)復制到其他商店,您可以使用數據流 Excel 源,它的運動流讀取和性能更好。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.