簡體 English 中英

在火花中使用hdfs：//和yarn的區別

[英]Difference between using hdfs:// and yarn in spark

原文 2016-03-28 08:14:39 8 1 apache-spark/ hdfs/ yarn

在集群模式下使用hdfs：//和yarn在spark中保存和加載保存文件有什么區別？

1 個解決方案

從這里的問題來看，我顯然猜想您對HDFS和YARN的理解不正確。

YARN是一個通用的作業調度框架，而HDFS是一個存儲框架。

堅果殼中的YARN具有一個master（資源管理器）和worker（節點管理器），

資源管理器在工作人員上創建容器以執行MapReduce作業，Spark作業等。

另一方面，HDFS具有一個主節點（名稱節點）和輔助節點（數據節點）以持久化和檢索文件。

您不需要YARN與HDFS進行通信，它是一個獨立的實體。

在生產環境中，HDFS worker（數據節點）和YARN worker（節點管理器）安裝在單台計算機上，以便處理框架可以使用最近的本地數據節點（Data Locality）中的數據。

在群集模式下在YARN群集上使用spark意味着YARN群集中的工作節點之一充當客戶端來提交spark作業。

因此，使用hdfs：//顯然將使spark作業受益，因為spark執行程序將從最近的數據節點讀取數據。

YARN和HDFS配置將從客戶端計算機上的HADOOP_CONF_DIR讀取（可以是客戶端模式下的本地計算機，而群集模式下的工作節點之一）。

Spark RDD和HDFS數據塊之間的區別

[英]Difference between Spark RDDs and HDFS' data blocks

Spark-submit / spark-shell > yarn-client 和 yarn-cluster 模式的區別

[英]Spark-submit / spark-shell > difference between yarn-client and yarn-cluster mode

Spark Standalone、YARN 和本地模式有什么區別？

[英]What is the difference between Spark Standalone, YARN and local mode?

Spark YARN應用程序中的Kerberos中的HDFS寫問題

[英]HDFS Write Issue in Kerberos in Spark YARN Application

Spark / Yarn：HDFS上不存在文件

[英]Spark/Yarn: File does not exist on HDFS

Spark提交的HDFS路徑和YARN上的Flink

[英]HDFS Path for Spark Submit and Flink on YARN

丟失的執行器嘗試在Yarn / hdfs集群中使用Spark / GraphX加載圖

[英]Lost Executor trying to load Graph using Spark/GraphX in Yarn/hdfs Cluster

使用 Spark 與 HDFS 作為文件存儲系統和 YARN 作為資源管理器有什么好處？

[英]What is the advantage of using spark with HDFS as file storage system and YARN as resource manager?

在紗線上使用火花時火花執行器和紗線容器是什么關系

[英]what is the relationship between spark executor and yarn container when using spark on yarn

“spark.yarn.executor.memoryOverhead”和“spark.memory.offHeap.size”之間的區別

[英]Difference between “spark.yarn.executor.memoryOverhead” and “spark.memory.offHeap.size”

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Spark RDD和HDFS數據塊之間的區別 Spark-submit / spark-shell > yarn-client 和 yarn-cluster 模式的區別 Spark Standalone、YARN 和本地模式有什么區別？ Spark YARN應用程序中的Kerberos中的HDFS寫問題 Spark / Yarn：HDFS上不存在文件 Spark提交的HDFS路徑和YARN上的Flink 丟失的執行器嘗試在Yarn / hdfs集群中使用Spark / GraphX加載圖使用 Spark 與 HDFS 作為文件存儲系統和 YARN 作為資源管理器有什么好處？在紗線上使用火花時火花執行器和紗線容器是什么關系 “spark.yarn.executor.memoryOverhead”和“spark.memory.offHeap.size”之間的區別

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM