[英]SPARK | Generating too many part files
我们有一个存储为 Parquet 的 HIVE 目标。 Informatica BDM 作业配置为使用 spark 作为执行引擎将数据加载到 HIVE 目标。
我们注意到在 HDFS 的一个分区中生成了大约 2000 个部分文件。 此行为将影响 HIVE 性能。
有没有相同的选择?
输入文件大小仅为 12MB
块大小为 128MB
问候,斯里达·文卡特桑
根本原因是由于 spark.sql.shuffle.partitions
您需要设置 spark.sql.shuffle.partitions=1 这样它不会将文件拆分为多个分区文件。 这也适用于大文件
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.