簡體 English 中英

如何在Spark配置單元中設置Spark RDD StorageLevel？

[英]how to set spark RDD StorageLevel in hive on spark?

原文 2016-01-16 03:28:39 1 1 hadoop/ apache-spark/ hive/ hiveql

在我的蜂巢火花工作中，出現以下錯誤：

org.apache.spark.shuffle.MetadataFetchFailedException：缺少shuffle 0的輸出位置

由於hive將sql轉換為hiveonspark作業，因此我不打算在hive中設置它以使其hiveonspark作業從StorageLevel.MEMORY_ONLY更改為StorageLevel.MEMORY_AND_DISK嗎？

謝謝你的幫助~~~~

您可以使用CACHE/UNCACHE [LAZY] Table <table_name>來管理緩存。 更多細節。

如果使用的是DataFrame，則可以使用persist（...）指定StorageLevel。 在這里查看API。 。

除了設置存儲級別，您還可以優化其他內容。 SparkSQL使用稱為Columnar存儲的另一種緩存機制，這是一種更高效的數據緩存方式（因為SparkSQL支持模式）。 可以調整一組不同的配置屬性來管理緩存，如此處詳細描述（這是最新版本的文檔。請參閱您使用的版本的文檔）。

[英]Save Spark RDD to Hive Table

[英]How to generate a large data set using hive / spark-sql?

[英]how to set up hive database connection inside spark

[英]How to create RDD from memory of Slaves in Spark?

[英]How to cancel Spark Hadoop RDD computation

[英]Spark: scala - how to convert collection from RDD to another RDD

[英]spark: how to zip an RDD with each partition of the other RDD

[英]How to configure Hive to use Spark?

[英]spark - extract elements from an RDD[Row] when reading Hive table in Spark

[英]Apache Spark RDD

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 將Spark RDD保存到Hive表如何使用Hive / Spark-SQL生成大型數據集？如何在Spark內部設置Hive數據庫連接如何從Spark中的Slave從內存創建RDD？如何取消Spark Hadoop RDD計算 Spark：scala - 如何將集合從RDD轉換為另一個RDD spark：如何用另一個RDD的每個分區壓縮一個RDD 如何配置Hive使用Spark？ spark-在Spark中讀取Hive表時從RDD [Row]中提取元素 Apache Spark RDD

相關標簽