[英]How to run jobs in parallel manner in pyspark?
我正在嘗試以並行方式運行作業。 你能幫我怎么做嗎?
例子:
Job Job_Type
A independent
B independent
C A
D B
您可以在此處看到作業 A、B 是獨立的,因此它們將同時運行。 C 和 D 依賴於 A 和 B。因此它們將在完成各自的作業后運行。 假設 A 需要 10 分鍾。 B 需要 15 分鍾。 所以A完成后立即C應該啟動。
我們可以為這種情況創建邏輯嗎? 如果您需要更多信息,請告訴我。
我不確定您使用的是什么編排工具,但是您可以創建如下所示的工作..或者這就是我所遵循的..
像這樣創建基於規則的作業:C 將在 A 有新數據時更新
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.