三角洲湖中使用的 spark.databricks.delta.snapshotPartitions 配置是什么？

Question

我正在通过 delta 湖，遇到了一个配置 spark.databricks.delta.snapshotPartitions 但不太确定它的用途是什么？ 在 delta Lake 文档中也找不到这个。

在三角洲湖 github 找到下面的代码，但不确定这个属性是如何工作的

  val DELTA_SNAPSHOT_PARTITIONS =
    buildConf("snapshotPartitions")
      .internal()
      .doc("Number of partitions to use when building a Delta Lake snapshot.")
      .intConf
      .checkValue(n => n > 0, "Delta snapshot partition number must be positive.")
      .createOptional

Answer 1

Delta Lake 使用 Spark 处理_delta_log目录中的事务日志。 当 Delta Lake 加载事务日志时，它会重放日志以生成称为Snapshot的表的当前 state。 这一步有一个重新分区操作。 您可以使用spark.databricks.delta.snapshotPartitions来配置在repartition操作中使用多少个分区。 当您的表元数据增长时，您可能需要增加此配置，以便表元数据的每个分区都可以适合执行器 memory。

三角洲湖中使用的 spark.databricks.delta.snapshotPartitions 配置是什么？

问题描述

1 个解决方案

解决方案1
0 已采纳 2020-05-07 01:41:45

三角洲湖中使用的 spark.databricks.delta.snapshotPartitions 配置是什么？

问题描述

1 个解决方案

解决方案1 0 已采纳 2020-05-07 01:41:45

解决方案1
0 已采纳 2020-05-07 01:41:45