簡體   English   中英

有效合並大型實木復合地板文件

[英]Effectively merge big parquet files

我正在使用實木復合地板工具來合並實木復合地板文件。 但似乎鑲木地板工具需要的存儲量與合並文件一樣大。 我們是否有其他方法或拼花工具中的可配置選項來更有效地使用內存? 因為我在hadoop env上以地圖作業的形式運行合並作業。 容器每次因其使用的內存多於提供的內存而被殺死。

謝謝。

我不建議使用parquet-tools merge,因為它只是將行組一個接一個地放置,因此您仍然會有小的組,只是打包在一個文件中。 生成的文件通常將不會具有明顯更好的性能,並且在某些情況下,其性能甚至可能比單獨的文件差。 有關詳細信息,請參見PARQUET-1115

當前,合並Parquet文件的唯一正確方法是從文件中讀取所有數據並將其寫入新的Parquet文件。 您可以通過MapReduce作業(為此目的需要編寫自定義代碼)或使用Spark,Hive或Impala來實現。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM