[英]how to cache data in apache spark that can be used by other spark job
[英]How can I obtain the DAG of an Apache Spark job without running it?
我有一些Scala代碼,我可以使用spark-submit與Spark一起運行。 根據我的理解,Spark創建了一個DAG以便安排操作。
有沒有辦法檢索這個DAG而不實際執行繁重的操作,例如只是通過分析代碼?
我想要一個有用的表示,如數據結構或至少一個書面表示,而不是DAG可視化。
如果您使用的是數據幀(spark sql),則可以使用df.explain(true)來獲取計划和所有操作(優化前后)。
如果您使用的是rdd,則可以使用rdd.toDebugString來獲取字符串表示形式,使用rdd.dependencies來獲取樹本身。
如果您在沒有實際操作的情況下使用它們,您將獲得在沒有實際執行繁重任務的情況下將會發生什么的表示。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.