簡體 English 中英

Delta 表優化/真空

[英]Delta Table optimize/vacuum

原文 2021-12-21 09:41:37 3 1 apache-spark/ delta-lake

我有文件由 kubernetes 作業（在 prem 上運行）以增量表的形式寫入 adls gen2 容器中。（Kubernetes 上的火花，這有助於我在 adls 上編寫增量表）

每小時流動的文件數量巨大（小文件+大文件），我們想要優化/清理增量表。

是否有一種自動方式/設置可以自動優化和清理增量表。

我已閱讀有關自動優化的這篇文章，但仍不清楚這是否可以幫助我。

謝謝你，拉胡爾·基肖爾

1 個解決方案

鏈接的文章引用了 Databricks 上的 Delta 的特性，它會在寫入數據時嘗試生成更大的文件 - 這與 OPTIMIZE/VACUUM 的自動執行不同。

即使在 Databricks 上，您也需要顯式運行 VACUUM - 只需創建一個將在選定表上執行 VACUUM 的小型 Spark 作業 - 只需按照文檔獲取正確的語法和設置即可。

請注意，OPTIMIZE 僅在 Databricks 上可用，如果您使用 OSS Delta，您可以通過讀取全部或部分數據來模擬它，重新分區以獲得最佳文件大小並以overwrite模式將其寫回。 （僅優化部分數據時要小心 - 使用文檔中所示的replaceWhere選項）

EMR 和 S3 上的 Delta Lake (OSS) 表 - 真空需要很長時間而沒有工作

[英]Delta Lake (OSS) Table on EMR and S3 - Vacuum takes a long time with no jobs

VACUUM/OPTIMIZE 對 Autoloader 檢查點的影響

[英]VACUUM/OPTIMIZE Effect on Autoloader Checkpoints

Databricks 集群是否需要始終保持 Delta Lake 的 VACUUM 操作？

[英]Does Databricks cluster need to be always up for VACUUM operation of Delta Lake?

如何在 Delta Lake 的 Python 中通過空運行調用真空

[英]How to call vacuum with a dry run in Python for a Delta Lake

pyspark delta Lake 優化 - 無法解析 SQL

[英]pyspark delta lake optimize - fails to parse SQL

增量表統計信息

[英]Delta table statistics

Hive 三角洲湖表

[英]Hive table on delta lake

重復數據刪除 Delta Lake 表

[英]Deduplicate Delta Lake Table

具有格式（增量）的 streamWriter 未生成增量表

[英]streamWriter with format(delta) is not producing a delta table

Delta 表 / 雅典娜與火花

[英]Delta Table / Athena And Spark

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 EMR 和 S3 上的 Delta Lake (OSS) 表 - 真空需要很長時間而沒有工作 VACUUM/OPTIMIZE 對 Autoloader 檢查點的影響 Databricks 集群是否需要始終保持 Delta Lake 的 VACUUM 操作？如何在 Delta Lake 的 Python 中通過空運行調用真空 pyspark delta Lake 優化 - 無法解析 SQL 增量表統計信息 Hive 三角洲湖表重復數據刪除 Delta Lake 表具有格式（增量）的 streamWriter 未生成增量表 Delta 表 / 雅典娜與火花

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM