繁体   English   中英

在火花中使用hdfs://和yarn的区别

[英]Difference between using hdfs:// and yarn in spark

在集群模式下使用hdfs://和yarn在spark中保存和加载保存文件有什么区别?

这里的问题来看,我显然猜想您对HDFS和YARN的理解不正确。

YARN是一个通用的作业调度框架,而HDFS是一个存储框架。

坚果壳中的YARN具有一个master(资源管理器)和worker(节点管理器),

资源管理器在工作人员上创建容器以执行MapReduce作业,Spark作业等。

另一方面,HDFS具有一个主节点(名称节点)和辅助节点(数据节点)以持久化和检索文件。

您不需要YARN与HDFS进行通信,它是一个独立的实体。

在生产环境中,HDFS worker(数据节点)和YARN worker(节点管理器)安装在单台计算机上,以便处理框架可以使用最近的本地数据节点(Data Locality)中的数据。

在群集模式下在YARN群集上使用spark意味着YARN群集中的工作节点之一充当客户端来提交spark作业。

因此,使用hdfs://显然将使spark作业受益,因为spark执行程序将从最近的数据节点读取数据。

YARN和HDFS配置将从客户端计算机上的HADOOP_CONF_DIR读取(可以是客户端模式下的本地计算机,而群集模式下的工作节点之一)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM