簡體 English 中英

如何在不運行的情況下獲取Apache Spark作業的DAG？

[英]How can I obtain the DAG of an Apache Spark job without running it?

原文 2017-09-16 13:34:52 8 1 scala/ apache-spark

我有一些Scala代碼，我可以使用spark-submit與Spark一起運行。 根據我的理解，Spark創建了一個DAG以便安排操作。

有沒有辦法檢索這個DAG而不實際執行繁重的操作，例如只是通過分析代碼？

我想要一個有用的表示，如數據結構或至少一個書面表示，而不是DAG可視化。

1 個解決方案

如果您使用的是數據幀（spark sql），則可以使用df.explain（true）來獲取計划和所有操作（優化前后）。

如果您使用的是rdd，則可以使用rdd.toDebugString來獲取字符串表示形式，使用rdd.dependencies來獲取樹本身。

如果您在沒有實際操作的情況下使用它們，您將獲得在沒有實際執行繁重任務的情況下將會發生什么的表示。

如何在Apache Spark中緩存可被其他Spark作業使用的數據

[英]how to cache data in apache spark that can be used by other spark job

在運行於紗線中的scala spark作業中，如何使作業失敗，以便紗線顯示“失敗”狀態

[英]In a scala spark job, running in yarn, how can I fail the job so that yarn shows a Failed status

如何知道Apache Spark中當前正在運行的作業的哪個階段？

[英]How to know which stage of a job is currently running in Apache Spark?

Apache Spark：如何取消代碼中的作業並終止正在運行的任務？

[英]Apache Spark: how to cancel job in code and kill running tasks?

在 Apache Spark 上的 Scala 作業中沒有這樣的方法運行 forEach

[英]No such method running forEach in Scala job on Apache Spark

如何以編程方式運行Spark作業

[英]How can I run Spark job programmatically

如何將配置文件添加到在 YARN-CLUSTER 模式下運行的 Spark 作業？

[英]How can I add configuration files to a Spark job running in YARN-CLUSTER mode?

Spark作業長時間無結果運行

[英]Spark job running without result for long

Scala - 在不執行的情況下獲取具有階段和任務的 DAG

[英]Scala - Obtain DAG with stages and tasks without execution

在Apache Spark中跨多個工人運行一項工作

[英]running a single job across multiple workers in apache spark

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在Apache Spark中緩存可被其他Spark作業使用的數據在運行於紗線中的scala spark作業中，如何使作業失敗，以便紗線顯示“失敗”狀態如何知道Apache Spark中當前正在運行的作業的哪個階段？ Apache Spark：如何取消代碼中的作業並終止正在運行的任務？在 Apache Spark 上的 Scala 作業中沒有這樣的方法運行 forEach 如何以編程方式運行Spark作業如何將配置文件添加到在 YARN-CLUSTER 模式下運行的 Spark 作業？ Spark作業長時間無結果運行 Scala - 在不執行的情況下獲取具有階段和任務的 DAG 在Apache Spark中跨多個工人運行一項工作

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM