[英]How to handle large gz file in Spark
我正在嘗試讀取大的gz文件,然后將其插入表中。 這花了很長時間。
sparkSession.read.format("csv").option("header", "true").load("file-about-5gb-size.gz").repartition( 1000).coalesce(1000).write.mode("overwrite").format("orc").insertInto(table)
有什么我可以優化的方法,請幫忙。
注意:我使用了隨機分區和合並
如果文件采用gzip壓縮,則將無法進行讀取優化。 gzip壓縮無法在spark中拆分。 無法避免在spark驅動程序節點中讀取完整的文件。
如果要並行化,則需要通過unzip
然后處理該文件來使其可拆分。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.