簡體   English   中英

如何在 pyspark 中並行運行作業?

[英]How to run jobs in parallel manner in pyspark?

我正在嘗試以並行方式運行作業。 你能幫我怎么做嗎?

例子:

Job       Job_Type
A         independent
B         independent
C         A
D         B

您可以在此處看到作業 A、B 是獨立的,因此它們將同時運行。 C 和 D 依賴於 A 和 B。因此它們將在完成各自的作業后運行。 假設 A 需要 10 分鍾。 B 需要 15 分鍾。 所以A完成后立即C應該啟動。

我們可以為這種情況創建邏輯嗎? 如果您需要更多信息,請告訴我。

我不確定您使用的是什么編排工具,但是您可以創建如下所示的工作..或者這就是我所遵循的..

像這樣創建基於規則的作業:C 將在 A 有新數據時更新

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM