簡體   English   中英

Azure - 為存儲容器中的每個新 blob 觸發 Databricks 筆記本

[英]Azure - Trigger Databricks notebook for each new blob in Storage container

我正在實施一種測試解決方案:

我在 Python 中創建了一個 Azure databricks 筆記本。 此筆記本正在執行以下任務(用於測試)-

  1. 從 Pyspark dataframe 中的存儲帳戶讀取 blob 文件。
  2. 對其進行一些改造和分析。
  3. 使用轉換后的數據創建 CSV 並存儲在不同的容器中。
  4. 將原始讀取 CSV 移動到不同的存檔容器(以便在下次執行時不會被拾取)。

*以上步驟也可以在不同的筆記本上完成。

現在,我需要為容器中的每個新 Blob 觸發此筆記本。 我將實施以下編排-

容器中的新 blob -> 事件到 EventGrid 主題 -> 觸發 Datafactory 管道 -> 執行 Databricks Notebook。

我們可以將文件名作為參數從 ADF 管道傳遞到 Databricks 筆記本。

尋找其他一些方法來進行編排流程。 如果以上看起來正確且更合適,請標記為已回答。

容器中的新 blob -> 事件到 EventGrid 主題 -> 觸發 Datafactory 管道 -> 執行 Databricks Notebook。

我們可以將文件名作為參數從 ADF 管道傳遞到 Databricks 筆記本。

尋找其他一些方法來進行編排流程。 如果以上看起來正確且更合適,請標記為已回答。

您可以使用此方法。 當然,你也可以走這條路:

New blob in Container -> Use built-in event trigger to trigger Datafactory pipeline -> execute Databricks Notebook

我認為您不需要介紹事件網格,因為數據工廠帶有用於創建基於 blob 的事件的觸發器。

我得到了 2 條關於我所關注的編排的支持評論。 // 容器中的新 blob -> 事件到 EventGrid 主題 -> 觸發 Datafactory 管道 -> 執行 Databricks Notebook。 //

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM