簡體   English   中英

在火花中使用hdfs://和yarn的區別

[英]Difference between using hdfs:// and yarn in spark

在集群模式下使用hdfs://和yarn在spark中保存和加載保存文件有什么區別?

這里的問題來看,我顯然猜想您對HDFS和YARN的理解不正確。

YARN是一個通用的作業調度框架,而HDFS是一個存儲框架。

堅果殼中的YARN具有一個master(資源管理器)和worker(節點管理器),

資源管理器在工作人員上創建容器以執行MapReduce作業,Spark作業等。

另一方面,HDFS具有一個主節點(名稱節點)和輔助節點(數據節點)以持久化和檢索文件。

您不需要YARN與HDFS進行通信,它是一個獨立的實體。

在生產環境中,HDFS worker(數據節點)和YARN worker(節點管理器)安裝在單台計算機上,以便處理框架可以使用最近的本地數據節點(Data Locality)中的數據。

在群集模式下在YARN群集上使用spark意味着YARN群集中的工作節點之一充當客戶端來提交spark作業。

因此,使用hdfs://顯然將使spark作業受益,因為spark執行程序將從最近的數據節點讀取數據。

YARN和HDFS配置將從客戶端計算機上的HADOOP_CONF_DIR讀取(可以是客戶端模式下的本地計算機,而群集模式下的工作節點之一)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM