簡體   English   中英

如何在Spark中處理大型GZ文件

[英]How to handle large gz file in Spark

我正在嘗試讀取大的gz文件,然后將其插入表中。 這花了很長時間。

sparkSession.read.format("csv").option("header", "true").load("file-about-5gb-size.gz").repartition( 1000).coalesce(1000).write.mode("overwrite").format("orc").insertInto(table)

有什么我可以優化的方法,請幫忙。

注意:我使用了隨機分區和合並

如果文件采用gzip壓縮,則將無法進行讀取優化。 gzip壓縮無法在spark中拆分。 無法避免在spark驅動程序節點中讀取完整的文件。
如果要並行化,則需要通過unzip然后處理該文件來使其可拆分。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM