繁体 English 中英

如何在Spark配置单元中设置Spark RDD StorageLevel？

[英]how to set spark RDD StorageLevel in hive on spark?

原文 2016-01-16 03:28:39 9 1 hadoop/ apache-spark/ hive/ hiveql

在我的蜂巢火花工作中，出现以下错误：

org.apache.spark.shuffle.MetadataFetchFailedException：缺少shuffle 0的输出位置

由于hive将sql转换为hiveonspark作业，因此我不打算在hive中设置它以使其hiveonspark作业从StorageLevel.MEMORY_ONLY更改为StorageLevel.MEMORY_AND_DISK吗？

谢谢你的帮助~~~~

您可以使用CACHE/UNCACHE [LAZY] Table <table_name>来管理缓存。 更多细节。

如果使用的是DataFrame，则可以使用persist（...）指定StorageLevel。 在这里查看API。 。

除了设置存储级别，您还可以优化其他内容。 SparkSQL使用称为Columnar存储的另一种缓存机制，这是一种更高效的数据缓存方式（因为SparkSQL支持模式）。 可以调整一组不同的配置属性来管理缓存，如此处详细描述（这是最新版本的文档。请参阅您使用的版本的文档）。

[英]Save Spark RDD to Hive Table

[英]How to generate a large data set using hive / spark-sql?

[英]how to set up hive database connection inside spark

[英]How to create RDD from memory of Slaves in Spark?

[英]How to cancel Spark Hadoop RDD computation

[英]Spark: scala - how to convert collection from RDD to another RDD

[英]spark: how to zip an RDD with each partition of the other RDD

[英]How to configure Hive to use Spark?

[英]spark - extract elements from an RDD[Row] when reading Hive table in Spark

[英]Apache Spark RDD

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 将Spark RDD保存到Hive表如何使用Hive / Spark-SQL生成大型数据集？如何在Spark内部设置Hive数据库连接如何从Spark中的Slave从内存创建RDD？如何取消Spark Hadoop RDD计算 Spark：scala - 如何将集合从RDD转换为另一个RDD spark：如何用另一个RDD的每个分区压缩一个RDD 如何配置Hive使用Spark？ spark-在Spark中读取Hive表时从RDD [Row]中提取元素 Apache Spark RDD

相关标签