繁体 English 中英

Delta 表优化/真空

[英]Delta Table optimize/vacuum

原文 2021-12-21 09:41:37 9 1 apache-spark/ delta-lake

我有文件由 kubernetes 作业（在 prem 上运行）以增量表的形式写入 adls gen2 容器中。（Kubernetes 上的火花，这有助于我在 adls 上编写增量表）

每小时流动的文件数量巨大（小文件+大文件），我们想要优化/清理增量表。

是否有一种自动方式/设置可以自动优化和清理增量表。

我已阅读有关自动优化的这篇文章，但仍不清楚这是否可以帮助我。

谢谢你，拉胡尔·基肖尔

1 个解决方案

链接的文章引用了 Databricks 上的 Delta 的特性，它会在写入数据时尝试生成更大的文件 - 这与 OPTIMIZE/VACUUM 的自动执行不同。

即使在 Databricks 上，您也需要显式运行 VACUUM - 只需创建一个将在选定表上执行 VACUUM 的小型 Spark 作业 - 只需按照文档获取正确的语法和设置即可。

请注意，OPTIMIZE 仅在 Databricks 上可用，如果您使用 OSS Delta，您可以通过读取全部或部分数据来模拟它，重新分区以获得最佳文件大小并以overwrite模式将其写回。 （仅优化部分数据时要小心 - 使用文档中所示的replaceWhere选项）

EMR 和 S3 上的 Delta Lake (OSS) 表 - 真空需要很长时间而没有工作

[英]Delta Lake (OSS) Table on EMR and S3 - Vacuum takes a long time with no jobs

VACUUM/OPTIMIZE 对 Autoloader 检查点的影响

[英]VACUUM/OPTIMIZE Effect on Autoloader Checkpoints

Databricks 集群是否需要始终保持 Delta Lake 的 VACUUM 操作？

[英]Does Databricks cluster need to be always up for VACUUM operation of Delta Lake?

如何在 Delta Lake 的 Python 中通过空运行调用真空

[英]How to call vacuum with a dry run in Python for a Delta Lake

pyspark delta Lake 优化 - 无法解析 SQL

[英]pyspark delta lake optimize - fails to parse SQL

增量表统计信息

[英]Delta table statistics

Hive 三角洲湖表

[英]Hive table on delta lake

重复数据删除 Delta Lake 表

[英]Deduplicate Delta Lake Table

具有格式（增量）的 streamWriter 未生成增量表

[英]streamWriter with format(delta) is not producing a delta table

Delta 表 / 雅典娜与火花

[英]Delta Table / Athena And Spark

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 EMR 和 S3 上的 Delta Lake (OSS) 表 - 真空需要很长时间而没有工作 VACUUM/OPTIMIZE 对 Autoloader 检查点的影响 Databricks 集群是否需要始终保持 Delta Lake 的 VACUUM 操作？如何在 Delta Lake 的 Python 中通过空运行调用真空 pyspark delta Lake 优化 - 无法解析 SQL 增量表统计信息 Hive 三角洲湖表重复数据删除 Delta Lake 表具有格式（增量）的 streamWriter 未生成增量表 Delta 表 / 雅典娜与火花

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM