三角洲湖中使用的 spark.databricks.delta.snapshotPartitions 配置是什么？

Question

我正在通過 delta 湖，遇到了一個配置 spark.databricks.delta.snapshotPartitions 但不太確定它的用途是什么？ 在 delta Lake 文檔中也找不到這個。

在三角洲湖 github 找到下面的代碼，但不確定這個屬性是如何工作的

  val DELTA_SNAPSHOT_PARTITIONS =
    buildConf("snapshotPartitions")
      .internal()
      .doc("Number of partitions to use when building a Delta Lake snapshot.")
      .intConf
      .checkValue(n => n > 0, "Delta snapshot partition number must be positive.")
      .createOptional

Answer 1

Delta Lake 使用 Spark 處理_delta_log目錄中的事務日志。 當 Delta Lake 加載事務日志時，它會重放日志以生成稱為Snapshot的表的當前 state。 這一步有一個重新分區操作。 您可以使用spark.databricks.delta.snapshotPartitions來配置在repartition操作中使用多少個分區。 當您的表元數據增長時，您可能需要增加此配置，以便表元數據的每個分區都可以適合執行器 memory。

三角洲湖中使用的 spark.databricks.delta.snapshotPartitions 配置是什么？

問題描述

1 個解決方案

解決方案1
0 已采納 2020-05-07 01:41:45

三角洲湖中使用的 spark.databricks.delta.snapshotPartitions 配置是什么？

問題描述

1 個解決方案

解決方案1 0 已采納 2020-05-07 01:41:45

解決方案1
0 已采納 2020-05-07 01:41:45