繁体 English 中英

火花| 生成过多的零件文件

[英]SPARK | Generating too many part files

原文 2018-09-12 21:56:50 2 2 apache-spark/ hive/ apache-spark-sql/ informatica

我们有一个存储为 Parquet 的 HIVE 目标。 Informatica BDM 作业配置为使用 spark 作为执行引擎将数据加载到 HIVE 目标。

我们注意到在 HDFS 的一个分区中生成了大约 2000 个部分文件。 此行为将影响 HIVE 性能。

有没有相同的选择？

输入文件大小仅为 12MB

块大小为 128MB

问候，斯里达·文卡特桑

2 个解决方案

根本原因是由于 spark.sql.shuffle.partitions

您需要设置 spark.sql.shuffle.partitions=1 这样它不会将文件拆分为多个分区文件。 这也适用于大文件

Spark-随机播放“打开的文件太多”

[英]Spark - “too many open files” in shuffle

spark (java) - 打开的文件太多

[英]spark (java) - Too many open files

火花中止火花作业中打开的文件太多

[英]Too many open files in spark aborting spark job

Spark Kafka Producer 抛出太多打开的文件异常

[英]Spark Kafka Producer throwing Too many open files Exception

为什么 Spark 作业会因“打开的文件太多”而失败？

[英]Why does Spark job fail with “too many open files”?

Spark在HDInsight YARN群集上打开文件太多而失败

[英]Spark fails with too many open files on HDInsight YARN cluster

Spark Streaming to Hive，每个分区的小文件太多

[英]Spark Streaming to Hive, too many small files per partition

MongoDB和Spark中的连接太多

[英]Too many connections in MongoDB and Spark

Spark作业中的累加器太多了

[英]Too many Accumulators in Spark Job

火花创建太多分区

[英]spark creating too many partitions

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark-随机播放“打开的文件太多” spark (java) - 打开的文件太多火花中止火花作业中打开的文件太多 Spark Kafka Producer 抛出太多打开的文件异常为什么 Spark 作业会因“打开的文件太多”而失败？ Spark在HDInsight YARN群集上打开文件太多而失败 Spark Streaming to Hive，每个分区的小文件太多 MongoDB和Spark中的连接太多 Spark作业中的累加器太多了火花创建太多分区

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM