繁体   English   中英

在Apache Spark中创建DAG

[英]DAG creation in Apache Spark

在Apache Spark中,我知道当我使用某些转换函数时,所有函数都存储为DAG,并且当我调用动作时,Spark会运行从该DAG到Action函数的所有必需转换函数。 所以,假设我有

  • 第1步。 3个转换功能
  • 第2步。 1动作
  • 第三步。 4个转换函数,使用上述动作的输出。
  • 第四步。 1动作

因此,我的问题是在步骤2调用第一个操作之后,是否删除了dag,并在调用第二个操作时从步骤3创建了新的DAG,还是从步骤1创建了新的DAG?

Spark使用弹性分布式数据集(RDD),该数据集代表数据的集合。 Spark可以将其存储在分布式内存中。 如您所述,RDD是内置在DAG中的。

在您的情况下:

  • 在第一个动作中,将计算DAG的计算结果,并得出RDD。
  • 在步骤3中,此新创建的RDD用作新DAG的输入。
  • 在步骤4中,将计算该DAG,并生成最终的RDD。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM