簡體   English   中英

Hive分區到Spark分區

[英]Hive partitions to Spark partitions

出於效率考慮,我們需要處理具有分區數據的大型數據集。 數據源位於Hive中,但是具有不同的分區標准。 換句話說,我們需要從Hive到Spark檢索數據,然后在Spark中重新分區。

但是,Spark中存在一個問題 ,當持久化數據(到拼花地板或ORC)時,會導致重新排序/重新分配分區。 因此,我們在Spark中的新分區丟失了。

作為替代方案,我們正在考慮在新的Hive表中構建新分區。 問題是:是否可以從Hive分區映射Spark分區(以供讀取)?

分區發現->可能就是您想要的:

“將路徑/目標/表傳遞到SparkSession.read.parquet或SparkSession.read.load,Spark SQL將自動從路徑中提取分區信息。”

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM