簡體   English   中英

如何將已分區的Hive ORC表中的多個ORC文件(屬於每個分區)組合到單個大ORC文件中

[英]How to combine multiple ORC files (belonging to each partition) in a Partitioned Hive ORC table into a single big ORC file

我在Hive中有一個分區的ORC表。 用所有可能的分區加載表后,我進入HDFS-多個ORC文件,即HDFS上的每個分區目錄中都有一個ORC文件。 對於某些用例,我需要將每個分區下的所有這些ORC文件合並為一個大的ORC文件。

有人可以建議我將這些多個ORC文件(屬於每個分區)組合為單個大ORC文件的方法。

我嘗試從分區表創建一個新的非分區ORC表。它確實減少了文件數量,但沒有減少到單個文件。

PS:從另一個表創建表完全是一個地圖任務,因此使用屬性“ set mapred.reduce.tasks = 1;”將化簡器的數量設置為1。 沒有幫助。

謝謝

您可以使用CONCATENATE命令合並小的orc文件。 這可以在表以及分區級別完成:根據orc文檔的語法:

用戶可以通過在表或分區上發出CONCATENATE命令來請求將小型ORC文件有效合並在一起。 文件將在條帶級別合並,而無需重新序列化。

ALTER TABLE istari [PARTITION partition_spec] CONCATENATE;

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM