繁体 English 中英

如何在Spark中处理大型GZ文件

[英]How to handle large gz file in Spark

原文 2018-10-19 22:21:39 9 1 scala/ apache-spark/ dataframe

我正在尝试读取大的gz文件，然后将其插入表中。 这花了很长时间。

sparkSession.read.format("csv").option("header", "true").load("file-about-5gb-size.gz").repartition( 1000).coalesce(1000).write.mode("overwrite").format("orc").insertInto(table)

有什么我可以优化的方法，请帮忙。

注意：我使用了随机分区和合并

1 个解决方案

如果文件采用gzip压缩，则将无法进行读取优化。 gzip压缩无法在spark中拆分。 无法避免在spark驱动程序节点中读取完整的文件。
如果要并行化，则需要通过unzip然后处理该文件来使其可拆分。

如何在spark中处理大文本文件？

[英]How to handle large text file in spark?

如何在Spark / Scala中在没有（.gz）扩展名的Azure上读取Gzip压缩文件

[英]How to read Gzipped file on Azure without (.gz) extension in Spark/Scala

如何强制spark / hadoop忽略文件上的.gz扩展名并将其作为未压缩的纯文本读取？

[英]How can I force spark/hadoop to ignore the .gz extension on a file and read it as uncompressed plain text?

使用Spark 1.4.1对嵌套的gz文件拆分数据框列的内容

[英]Splitting contents of a dataframe column using Spark 1.4.1 for nested gz file

在 SFTP 中将文件保存为 .txt.gz 的 Spark 应用程序

[英]Spark application that save file as .txt.gz in SFTP

解压多个 *.gz 文件并在 spark scala 中制作一个 csv 文件

[英]Unzip the multiple *.gz files and make one csv file in spark scala

将一个大的 tar.gz 文件分成多个小的 tar.gz 文件

[英]Break a large tar.gz file into multiple smaller tar.gz files

Spark-如何处理数据框

[英]Spark - How to handle dataframe

如何在 Spark/Scala 的 csv 文件中处理单元格中的逗号

[英]How to handle comma in a cell in csv file in Spark/Scala

如何使用Java或Scala处理大文件的最后一块

[英]How to Handle last chunk of large File with java or scala

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在spark中处理大文本文件？如何在Spark / Scala中在没有（.gz）扩展名的Azure上读取Gzip压缩文件如何强制spark / hadoop忽略文件上的.gz扩展名并将其作为未压缩的纯文本读取？使用Spark 1.4.1对嵌套的gz文件拆分数据框列的内容在 SFTP 中将文件保存为 .txt.gz 的 Spark 应用程序解压多个 *.gz 文件并在 spark scala 中制作一个 csv 文件将一个大的 tar.gz 文件分成多个小的 tar.gz 文件 Spark-如何处理数据框如何在 Spark/Scala 的 csv 文件中处理单元格中的逗号如何使用Java或Scala处理大文件的最后一块

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM