簡體   English   中英

三角洲湖中使用的 spark.databricks.delta.snapshotPartitions 配置是什么?

[英]what is spark.databricks.delta.snapshotPartitions configuration used for in delta lake?

我正在通過 delta 湖,遇到了一個配置 spark.databricks.delta.snapshotPartitions 但不太確定它的用途是什么? 在 delta Lake 文檔中也找不到這個。

在三角洲湖 github 找到下面的代碼,但不確定這個屬性是如何工作的

  val DELTA_SNAPSHOT_PARTITIONS =
    buildConf("snapshotPartitions")
      .internal()
      .doc("Number of partitions to use when building a Delta Lake snapshot.")
      .intConf
      .checkValue(n => n > 0, "Delta snapshot partition number must be positive.")
      .createOptional

Delta Lake 使用 Spark 處理_delta_log目錄中的事務日志。 當 Delta Lake 加載事務日志時,它會重放日志以生成稱為Snapshot的表的當前 state。 這一步有一個重新分區操作。 您可以使用spark.databricks.delta.snapshotPartitions來配置在repartition操作中使用多少個分區。 當您的表元數據增長時,您可能需要增加此配置,以便表元數據的每個分區都可以適合執行器 memory。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM