簡體 English 中英

.parallelize（...）在Apache Spark中是一個懶惰的操作嗎？

[英]Is .parallelize(…) a lazy operation in Apache Spark?

原文 2015-12-27 11:45:15 3 4 scala/ apache-spark

並行化（和其他加載操作）是僅在執行Spark操作時執行還是在遇到它時立即執行？

請參閱Spark 代碼中的 def parallelize

請注意.textFile（...）的不同后果：延遲評估意味着雖然最初可能會保存一些內存，但每次執行操作時都必須讀取文本文件，並且文本文件中的更改會影響改變后的所有行動。

4 個解決方案

parallelize執行是懶惰的：請參閱引用代碼的L726，說明“@note Parallelize懶惰地行動”。

只有在您調用操作（例如collect或count ）時才會觸發Spark中的執行。

因此與Spark一起：

轉換鏈由用戶API（您）設置，例如parallelize，map，reduce，...
一旦調用了一個動作，轉換鏈就會“放入”Catalyst優化器中，進行優化然后執行。

...（和其他加載操作）

parallelize是懶惰的（正如Martin Senne和Chandan所說），與SparkContext定義的標准數據加載操作（如textFile ）相同。

DataFrameReader.load和相關方法通常只是部分懶惰。 根據上下文，它可能需要元數據訪問（JDBC源，Cassandra）或甚至完整數據掃描（帶有模式推斷的CSV）。

請注意，這里我們剛剛定義了RDD，數據仍未加載。 這意味着如果您去訪問此RDD中的數據，它可能會失敗。 在RDD中創建數據的計算僅在引用數據時完成; 例如，它是通過緩存或寫出RDD創建的。

引用鏈接

parallelize() ，所有transformations都是懶惰的。

RDD支持兩種類型的操作： transformations （從現有數據集創建新數據集）和actions （在數據集上運行計算后將值返回到驅動程序）。

Spark中的所有轉換都是惰性的，因為它們不會立即計算結果。 相反，他們只記得應用於某些基礎數據集的轉換（例如文件）。 The transformations are only computed when an action requires a result to be returned to the driver program

看看這篇文章，了解Scala中的所有transformations 。

有關更多詳細信息，請查看此文檔。

在Apache Spark中，如何使RDD / DataFrame操作變得懶惰？

[英]In Apache Spark, how to make an RDD/DataFrame operation lazy?

如何並行化幾個apache spark rdds？

[英]How to parallelize several apache spark rdds?

在Apache Spark中，我可以輕松地重復/嵌套一個SparkContext.parallelize嗎？

[英]In Apache Spark, can I easily repeat/nest a SparkContext.parallelize?

Apache Spark mapPartition奇怪的行為（懶惰的評估？）

[英]Apache Spark mapPartition strange behavior (lazy evaluation?)

針對JavaRDD的每個操作的Apache Spark計時

[英]Apache Spark timing forEach operation on JavaRDD

Apache Spark：通過簡單的操作即可進行多次RDD傳遞

[英]Apache Spark: RDD multiple passes with a simple operation

Apache Spark連接操作的弱擴展性差

[英]Poor weak scaling of Apache Spark join operation

如何在 Apache Spark 中執行 UPSERT 或 MERGE 操作？

[英]How to perform UPSERT or MERGE operation in Apache Spark?

並行化數據集火花列表

[英]parallelize list of dataset spark

SparkContext並行化懶惰行為-無法解釋

[英]SparkContext parallelize lazy behavior - unexplained

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在Apache Spark中，如何使RDD / DataFrame操作變得懶惰？如何並行化幾個apache spark rdds？在Apache Spark中，我可以輕松地重復/嵌套一個SparkContext.parallelize嗎？ Apache Spark mapPartition奇怪的行為（懶惰的評估？）針對JavaRDD的每個操作的Apache Spark計時 Apache Spark：通過簡單的操作即可進行多次RDD傳遞 Apache Spark連接操作的弱擴展性差如何在 Apache Spark 中執行 UPSERT 或 MERGE 操作？並行化數據集火花列表 SparkContext並行化懶惰行為-無法解釋

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM