簡體 English 中英

Hive分區到Spark分區

[英]Hive partitions to Spark partitions

原文 2018-07-30 16:25:33 7 1 apache-spark/ hive

出於效率考慮，我們需要處理具有分區數據的大型數據集。 數據源位於Hive中，但是具有不同的分區標准。 換句話說，我們需要從Hive到Spark檢索數據，然后在Spark中重新分區。

但是，Spark中存在一個問題，當持久化數據（到拼花地板或ORC）時，會導致重新排序/重新分配分區。 因此，我們在Spark中的新分區丟失了。

作為替代方案，我們正在考慮在新的Hive表中構建新分區。 問題是：是否可以從Hive分區映射Spark分區（以供讀取）？

1 個解決方案

分區發現->可能就是您想要的：

“將路徑/目標/表傳遞到SparkSession.read.parquet或SparkSession.read.load，Spark SQL將自動從路徑中提取分區信息。”

Spark 分區：創建 RDD 分區但不創建 Hive 分區

[英]Spark partitions: creating RDD partitions but not Hive partitions

使用 spark 覆蓋 hive 分區

[英]overwrite hive partitions using spark

Hive 分區、Spark 分區和 Spark 中的連接 - 它們之間的關系

[英]Hive partitions, Spark partitions and joins in Spark - how they relate

如何在 Spark 中獲取 hive 表的分區信息

[英]how to get the partitions info of hive table in Spark

Hive on Spark 列出特定 Hive 表的所有分區並添加一個分區

[英]Hive on Spark list all partitions for specific hive table and adding a partition

配置單元按日期分區？

[英]Hive partitions by date?

Spark Hive上下文-具有分區和大寫字段名稱的Avro表

[英]Spark Hive Context - Avro table with partitions & uppercase field names

獲取Spark寫入Hive Metastore的所有新分區

[英]Get all the new partitions that are written to Hive metastore by Spark

如何配置Spark以正確修剪Hive Metastore分區？

[英]How should I configure Spark to correctly prune Hive Metastore partitions?

無法在Spark中更改hive.exec.max.dynamic.partitions

[英]Cannot change hive.exec.max.dynamic.partitions in Spark

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Spark 分區：創建 RDD 分區但不創建 Hive 分區使用 spark 覆蓋 hive 分區 Hive 分區、Spark 分區和 Spark 中的連接 - 它們之間的關系如何在 Spark 中獲取 hive 表的分區信息 Hive on Spark 列出特定 Hive 表的所有分區並添加一個分區配置單元按日期分區？ Spark Hive上下文-具有分區和大寫字段名稱的Avro表獲取Spark寫入Hive Metastore的所有新分區如何配置Spark以正確修剪Hive Metastore分區？無法在Spark中更改hive.exec.max.dynamic.partitions

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM