繁体 English 中英

使用 Spark 与 HDFS 作为文件存储系统和 YARN 作为资源管理器有什么好处？

[英]What is the advantage of using spark with HDFS as file storage system and YARN as resource manager?

原文 2019-01-26 17:35:53 9 1 apache-spark/ hadoop/ hdfs

我试图了解 spark 是否可以替代用于分析大数据的普通 MapReduce 方法。 由于spark将数据操作保存在内存中，所以spark使用HDFS作为存储系统时，是否利用了HDFS分布式存储的优势？ 例如，假设我有 100GB 的 CSV 文件存储在 HDFS 中，现在我想对其进行分析。 如果我将它从 HDFS 加载到 spark ，将在内存中加载完整的数据以进行转换，或者它将使用分布式环境来完成 HDFS 为存储提供的工作，该存储由用 hadoop 编写的 MapReduce 程序利用。 如果不是，那么在 HDFS 上使用 spark 的优势是什么？

PS：如果存在 RAM 溢出，我知道磁盘上会出现火花溢出，但是这种溢出是针对集群的每个节点（假设每个节点 5 GB）的数据还是针对完整数据（100GB）发生的？

1 个解决方案

如果没有足够的内存来读取文件，可以将 Spark 作业配置为溢出到本地执行程序磁盘。 或者，您可以在 Spark 阶段之间启用 HDFS 快照和缓存。

您提到了 CSV，这在 Hadoop 中通常是一种糟糕的格式。 如果您有 100GB 的 CSV，那么如果用 Parquet 或 ORC 编写，您可以轻松获得不到一半的 CSV 文件...

归根结底，您需要一些处理引擎和一些存储层。 例如，Mesos 或 Kubernetes 上的 Spark 可能与 YARN 上的工作一样好，但它们是独立的系统，并且不像 HDFS 和 YARN 那样捆绑和捆绑在一起。 另外，与 MapReduce 一样，当使用 YARN 时，您将执行移动到数据节点上的 NodeManager，而不是通过网络拉取数据，而您在其他 Spark 执行模式下会这样做。 NameNode 和 ResourceManagers 协调此通信以存储和处理数据

如果您确信 MapReduceV2 可以比 Spark 更好，我会鼓励您查看 Tez

使用Apache Spark在HDFS中存储多个文件

[英]Multiple file storage in HDFS using Apache Spark

YARN资源管理器上的Spark：YARN容器和Spark执行器之间的关系

[英]Spark on YARN resource manager: Relation between YARN Containers and Spark Executors

纱线资源管理器中未显示 Spark 执行器核心

[英]Spark executor cores not shown in yarn resource manager

Spark Master vs Yarn 资源管理器

[英]Spark Master vs Yarn Resource manager

Spark / Yarn：HDFS上不存在文件

[英]Spark/Yarn: File does not exist on HDFS

在火花中使用hdfs：//和yarn的区别

[英]Difference between using hdfs:// and yarn in spark

使用 HDFS 存储的 Spark 作业

[英]Spark job using HDFS storage

不使用spark-submit.sh时，Spark如何知道纱线资源管理器在哪里运行？

[英]How does Spark know where the Yarn Resource Manager is running when not using spark-submit.sh?

纱线作为 linux 集群的 SPARK 中的资源管理器 - 在 Kubernetes 内部和 Kubernetes 外部

[英]Yarn as resource manager in SPARK for linux cluster - inside Kubernetes and outside Kubernetes

HDFS HA yarn 在 spark-submit 上的这个错误是什么

[英]What is this error on spark-submit by HDFS HA yarn

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Apache Spark在HDFS中存储多个文件 YARN资源管理器上的Spark：YARN容器和Spark执行器之间的关系纱线资源管理器中未显示 Spark 执行器核心 Spark Master vs Yarn 资源管理器 Spark / Yarn：HDFS上不存在文件在火花中使用hdfs：//和yarn的区别使用 HDFS 存储的 Spark 作业不使用spark-submit.sh时，Spark如何知道纱线资源管理器在哪里运行？纱线作为 linux 集群的 SPARK 中的资源管理器 - 在 Kubernetes 内部和 Kubernetes 外部 HDFS HA yarn 在 spark-submit 上的这个错误是什么

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM