簡體 English 中英

如何在Spark中處理大型GZ文件

[英]How to handle large gz file in Spark

原文 2018-10-19 22:21:39 3 1 scala/ apache-spark/ dataframe

我正在嘗試讀取大的gz文件，然后將其插入表中。 這花了很長時間。

sparkSession.read.format("csv").option("header", "true").load("file-about-5gb-size.gz").repartition( 1000).coalesce(1000).write.mode("overwrite").format("orc").insertInto(table)

有什么我可以優化的方法，請幫忙。

注意：我使用了隨機分區和合並

1 個解決方案

如果文件采用gzip壓縮，則將無法進行讀取優化。 gzip壓縮無法在spark中拆分。 無法避免在spark驅動程序節點中讀取完整的文件。
如果要並行化，則需要通過unzip然后處理該文件來使其可拆分。

如何在spark中處理大文本文件？

[英]How to handle large text file in spark?

如何在Spark / Scala中在沒有（.gz）擴展名的Azure上讀取Gzip壓縮文件

[英]How to read Gzipped file on Azure without (.gz) extension in Spark/Scala

如何強制spark / hadoop忽略文件上的.gz擴展名並將其作為未壓縮的純文本讀取？

[英]How can I force spark/hadoop to ignore the .gz extension on a file and read it as uncompressed plain text?

使用Spark 1.4.1對嵌套的gz文件拆分數據框列的內容

[英]Splitting contents of a dataframe column using Spark 1.4.1 for nested gz file

在 SFTP 中將文件保存為 .txt.gz 的 Spark 應用程序

[英]Spark application that save file as .txt.gz in SFTP

解壓多個 *.gz 文件並在 spark scala 中制作一個 csv 文件

[英]Unzip the multiple *.gz files and make one csv file in spark scala

將一個大的 tar.gz 文件分成多個小的 tar.gz 文件

[英]Break a large tar.gz file into multiple smaller tar.gz files

Spark-如何處理數據框

[英]Spark - How to handle dataframe

如何在 Spark/Scala 的 csv 文件中處理單元格中的逗號

[英]How to handle comma in a cell in csv file in Spark/Scala

如何使用Java或Scala處理大文件的最后一塊

[英]How to Handle last chunk of large File with java or scala

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在spark中處理大文本文件？如何在Spark / Scala中在沒有（.gz）擴展名的Azure上讀取Gzip壓縮文件如何強制spark / hadoop忽略文件上的.gz擴展名並將其作為未壓縮的純文本讀取？使用Spark 1.4.1對嵌套的gz文件拆分數據框列的內容在 SFTP 中將文件保存為 .txt.gz 的 Spark 應用程序解壓多個 *.gz 文件並在 spark scala 中制作一個 csv 文件將一個大的 tar.gz 文件分成多個小的 tar.gz 文件 Spark-如何處理數據框如何在 Spark/Scala 的 csv 文件中處理單元格中的逗號如何使用Java或Scala處理大文件的最后一塊

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM