如何在 pyspark 中並行運行作業？

Question

我正在嘗試以並行方式運行作業。 你能幫我怎么做嗎？

例子：

Job       Job_Type
A         independent
B         independent
C         A
D         B

您可以在此處看到作業 A、B 是獨立的，因此它們將同時運行。 C 和 D 依賴於 A 和 B。因此它們將在完成各自的作業后運行。 假設 A 需要 10 分鍾。 B 需要 15 分鍾。 所以A完成后立即C應該啟動。

我們可以為這種情況創建邏輯嗎？ 如果您需要更多信息，請告訴我。

Answer 1

我不確定您使用的是什么編排工具，但是您可以創建如下所示的工作..或者這就是我所遵循的..

像這樣創建基於規則的作業：C 將在 A 有新數據時更新