簡體   English   中英

如何在不運行的情況下獲取Apache Spark作業的DAG?

[英]How can I obtain the DAG of an Apache Spark job without running it?

我有一些Scala代碼,我可以使用spark-submit與Spark一起運行。 根據我的理解,Spark創建了一個DAG以便安排操作。

有沒有辦法檢索這個DAG而不實際執行繁重的操作,例如只是通過分析代碼?

我想要一個有用的表示,如數據結構或至少一個書面表示,而不是DAG可視化。

如果您使用的是數據幀(spark sql),則可以使用df.explain(true)來獲取計划和所有操作(優化前后)。

如果您使用的是rdd,則可以使用rdd.toDebugString來獲取字符串表示形式,使用rdd.dependencies來獲取樹本身。

如果您在沒有實際操作的情況下使用它們,您將獲得在沒有實際執行繁重任務的情況下將會發生什么的表示。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM