繁体 English 中英

Spark可以将随机播放数据写入hdfs吗？

[英]Can spark write shuffle data to hdfs?

原文 2017-04-27 08:21:01 8 3 apache-spark/ hdfs/ bigdata

我正在使用SparkSQL将一个小表连接到Spark中的一个大表。 我有一个问题，即混入写入过程大约在连接进行到一半时，我的本地磁盘已被填充。

是否有一个Spark设置可用于将随机播放数据溢出到本地磁盘，而不是我们的hdfs存储（大型Isilon群集）？

在输出大于合并的本地磁盘存储的情况下，还有其他方法可以进行联接吗？

我确保两个输入表都已分区，并且输出表已分区。

我不在乎查询的性能，我只希望它完成而不会崩溃。

细节

我正在运行Spark 1.5.1。 我也乐于尝试使用蜂巢，但是我的经验告诉我，它崩溃的速度甚至更快。

有关我的集群的更多详细信息，您还可以看到此问题。

3 个解决方案

我认为您可以将结果存储在hdfs中，但是不能将数据计算存储到hdfs中。 因为计算必须在内存或磁盘上进行。

如果您的本地磁盘不够用，请找到一个可用的卷并设置'spark.local.dir' ，它应该更靠近以获得更好的性能。

不，这是本地目录，HDFS是共享文件系统。

您可以通过调整Spark进行数据分区的方式（取决于您的输入和处理）来减少混洗数据。

Spark shuffle write：为什么shuffle写入数据比从hdfs读取的输入数据大得多？

[英]Spark shuffle write: why shuffle write data is much bigger than input data read from hdfs?

我如何知道在Spark随机写入期间将多少数据写入到哪个执行程序？

[英]How Can I know how much data is written to which executer during Shuffle-write in spark?

Spark在hdfs写入镶木地板

[英]Spark write to parquet on hdfs

Spark写入HDFS很慢

[英]Spark write to HDFS is slow

如何从Spark写入HDFS，以更快地访问该数据？

[英]How can I write to HDFS from Spark to make access to that data faster?

什么是在Apache Spark中的shuffle read和shuffle write

[英]What is shuffle read & shuffle write in Apache Spark

Spark SQL查询导致巨大的数据洗牌读取/写入

[英]Spark sql query causing huge data shuffle read / write

为什么Spark选择在洗牌阶段通过网络发送数据而不是写入HDFS上的某个位置？

[英]Why Spark choses to send data over the network in shuffle phase instead of writing to some location on HDFS?

溢出到磁盘并随机写入火花

[英]Spill to disk and shuffle write spark

火花洗牌写超级慢

[英]spark shuffle write is super slow

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark shuffle write：为什么shuffle写入数据比从hdfs读取的输入数据大得多？我如何知道在Spark随机写入期间将多少数据写入到哪个执行程序？ Spark在hdfs写入镶木地板 Spark写入HDFS很慢如何从Spark写入HDFS，以更快地访问该数据？什么是在Apache Spark中的shuffle read和shuffle write Spark SQL查询导致巨大的数据洗牌读取/写入为什么Spark选择在洗牌阶段通过网络发送数据而不是写入HDFS上的某个位置？溢出到磁盘并随机写入火花火花洗牌写超级慢

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM