[英]Difference between using hdfs:// and yarn in spark
在集群模式下使用hdfs://和yarn在spark中保存和加載保存文件有什么區別?
從這里的問題來看,我顯然猜想您對HDFS和YARN的理解不正確。
YARN是一個通用的作業調度框架,而HDFS是一個存儲框架。
堅果殼中的YARN具有一個master(資源管理器)和worker(節點管理器),
資源管理器在工作人員上創建容器以執行MapReduce作業,Spark作業等。
另一方面,HDFS具有一個主節點(名稱節點)和輔助節點(數據節點)以持久化和檢索文件。
您不需要YARN與HDFS進行通信,它是一個獨立的實體。
在生產環境中,HDFS worker(數據節點)和YARN worker(節點管理器)安裝在單台計算機上,以便處理框架可以使用最近的本地數據節點(Data Locality)中的數據。
在群集模式下在YARN群集上使用spark意味着YARN群集中的工作節點之一充當客戶端來提交spark作業。
因此,使用hdfs://顯然將使spark作業受益,因為spark執行程序將從最近的數據節點讀取數據。
YARN和HDFS配置將從客戶端計算機上的HADOOP_CONF_DIR讀取(可以是客戶端模式下的本地計算機,而群集模式下的工作節點之一)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.