[英]what is spark.databricks.delta.snapshotPartitions configuration used for in delta lake?
我正在通过 delta 湖,遇到了一个配置 spark.databricks.delta.snapshotPartitions 但不太确定它的用途是什么? 在 delta Lake 文档中也找不到这个。
在三角洲湖 github 找到下面的代码,但不确定这个属性是如何工作的
val DELTA_SNAPSHOT_PARTITIONS =
buildConf("snapshotPartitions")
.internal()
.doc("Number of partitions to use when building a Delta Lake snapshot.")
.intConf
.checkValue(n => n > 0, "Delta snapshot partition number must be positive.")
.createOptional
Delta Lake 使用 Spark 处理_delta_log
目录中的事务日志。 当 Delta Lake 加载事务日志时,它会重放日志以生成称为Snapshot
的表的当前 state。 这一步有一个重新分区操作。 您可以使用spark.databricks.delta.snapshotPartitions
来配置在repartition
操作中使用多少个分区。 当您的表元数据增长时,您可能需要增加此配置,以便表元数据的每个分区都可以适合执行器 memory。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.