繁体   English   中英

如何在 pyspark 中并行运行作业?

[英]How to run jobs in parallel manner in pyspark?

我正在尝试以并行方式运行作业。 你能帮我怎么做吗?

例子:

Job       Job_Type
A         independent
B         independent
C         A
D         B

您可以在此处看到作业 A、B 是独立的,因此它们将同时运行。 C 和 D 依赖于 A 和 B。因此它们将在完成各自的作业后运行。 假设 A 需要 10 分钟。 B 需要 15 分钟。 所以A完成后立即C应该启动。

我们可以为这种情况创建逻辑吗? 如果您需要更多信息,请告诉我。

我不确定您使用的是什么编排工具,但是您可以创建如下所示的工作..或者这就是我所遵循的..

像这样创建基于规则的作业:C 将在 A 有新数据时更新

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM