簡體   English   中英

Azure數據工廠的Python自定義活動

[英]Python Custom Activity for Azure-Data Factory

我正在嘗試創建一個數據工廠,該工廠每周一次將大型blob文件(源)復制並處理到python中的SQL數據庫(接收器)中-通過逐行讀取輸入數據集,提取一個ID-使用該ID在CosmosDB上進行查找以獲取其他數據,以重組輸出數據集並寫入接收器。 我有一個Python腳本,可以在沒有ADF的情況下一次性執行此操作(即每次讀取整個Blob),但是現在想使用ADF上的調度功能來自動執行此操作。

有沒有一種方法可以在Python中創建自定義復制活動,可以將當前的代碼邏輯注入其中。 Azure當前僅記錄不適合我的堆棧的.Net自定義活動( https://docs.microsoft.com/zh-cn/azure/data-factory/transform-data-using-dotnet-custom-activity )。

python azure SDK當前沒有任何有關創建自定義活動的文檔。

如果查看該示例,則會看到可以在該節點上運行可執行文件。

     "typeProperties": {
          "command": "helloworld.exe",
          "folderPath": "customactv2/helloworld",
          "resourceLinkedService": {
            "referenceName": "StorageLinkedService",
            "type": "LinkedServiceReference"
          }
        }

再往下,在v1和v2之間的差異中,它們顯示僅在運行“ cmd”。

cmd /c echo hello world

因此,如果您可以創建一個可執行文件來啟動python代碼,那么它可能就可以了。 您也可以使用參數。 但是,該代碼將在Azure Batch上運行,Azure Batch將為您配置VM。 此VM可能沒有您需要的所有依賴項。 您必須創建一個“便攜式”程序包才能使其工作。 也許這篇文章可以幫助您。

更為優雅的一點是通過Web活動觸發Azure Functions。 但是似乎是很多東西: https ://ourwayoflyf.com/running-python-code-on-azure-functions-app/

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM