繁体   English   中英

火花| 生成过多的零件文件

[英]SPARK | Generating too many part files

我们有一个存储为 Parquet 的 HIVE 目标。 Informatica BDM 作业配置为使用 spark 作为执行引擎将数据加载到 HIVE 目标。

我们注意到在 HDFS 的一个分区中生成了大约 2000 个部分文件。 此行为将影响 HIVE 性能。

有没有相同的选择?

输入文件大小仅为 12MB

块大小为 128MB

问候,斯里达·文卡特桑

根本原因是由于 spark.sql.shuffle.partitions

您需要设置 spark.sql.shuffle.partitions=1 这样它不会将文件拆分为多个分区文件。 这也适用于大文件

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM