簡體   English   中英

在Apache Spark中創建DAG

[英]DAG creation in Apache Spark

在Apache Spark中,我知道當我使用某些轉換函數時,所有函數都存儲為DAG,並且當我調用動作時,Spark會運行從該DAG到Action函數的所有必需轉換函數。 所以,假設我有

  • 第1步。 3個轉換功能
  • 第2步。 1動作
  • 第三步。 4個轉換函數,使用上述動作的輸出。
  • 第四步。 1動作

因此,我的問題是在步驟2調用第一個操作之后,是否刪除了dag,並在調用第二個操作時從步驟3創建了新的DAG,還是從步驟1創建了新的DAG?

Spark使用彈性分布式數據集(RDD),該數據集代表數據的集合。 Spark可以將其存儲在分布式內存中。 如您所述,RDD是內置在DAG中的。

在您的情況下:

  • 在第一個動作中,將計算DAG的計算結果,並得出RDD。
  • 在步驟3中,此新創建的RDD用作新DAG的輸入。
  • 在步驟4中,將計算該DAG,並生成最終的RDD。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM