繁体 English 中英

如何并行插入Delta表

[英]How to insert into Delta table in parallel

原文 2020-09-14 12:34:07 5 1 apache-spark/ pyspark/ databricks/ azure-databricks/ delta-lake

我有一个进程可以在一个非常强大的集群上并行运行 100 多个相同的 databricks 笔记本。 每个笔记本在其进程结束时将大约 100 行数据写入存储在 Azure Gen1 DataLake 中的同一个 Delta Lake 表。 我看到 Delta 中的插入时间非常长，因为我只能假设 Delta 在插入时执行某种锁定表，然后在单个笔记本完成后将其释放，这基于阅读https://docs.databricks .com/delta/concurrency-control.html暗示不存在插入冲突，并且跨多个集群的多个编写器可以同时插入数据。

对于 100 多个笔记本，每个笔记本插入 100 行需要 3 多个小时。 导致瓶颈的当前代码是：

df.write.format("delta").mode("append").save("<path_>")

目前这张表上没有分区，这可能是一个可能的修复，但在沿着这条路线走之前，我在如何并行获得无冲突的插入方面有什么遗漏吗？

1 个解决方案

您必须为您的表选择两种类型的隔离级别，较弱的一种是默认值，因此不会逃避隔离级别。 https://docs.databricks.com/delta/optimizations/isolation-level.html

Delta Lake 具有 OCC（乐观并发控制），这意味着您要写入表的数据会根据其他 99 个进程要写入的所有数据进行验证。 这意味着正在进行 100*100=10000 次验证。https://en.wikipedia.org/wiki/Optimistic_concurrency_control

还请记住，您的数据处理架构将在 100 个笔记本中的最后一个完成时完成。 也许 100 个笔记本中的一个或多个需要 3 个小时才能完成，而插入不应该受到责备？

如果长时间运行的笔记本不是这种情况，我建议您尝试将每个笔记本的结果数据存储在某种数据结构中（例如将其存储在每个笔记本的 100 个文件中），然后批量插入数据结构的数据（例如files) 到目标表。

数据处理是并行的，插入不是并行的。

从 Pyspark 中的 dataframe 插入或更新增量表

[英]Insert or Update a delta table from a dataframe in Pyspark

如何删除 Delta 表中的重复项？

[英]How to drop duplicates in Delta Table?

如何将增量表中的数据插入到变量中，以便对它们应用流口水规则

[英]how to insert the data from delta table to a variable in order to apply drools rule on them

如何获取增量表的最新插入时间？

[英]How to get the latest insertion time for a delta table?

如何从 Databricks Delta 表中删除列？

[英]How to drop a column from a Databricks Delta table?

如何将增量表回滚到以前的版本

[英]How to roll back delta table to previous version

Pyspark: Delta表为stream源，怎么办？

[英]Pyspark: Delta table as stream source, How to do it?

如何向 Delta Lake 表添加新列？

[英]How to add a new column to a Delta Lake table?

如何在 Spark 2.4.4 中使用增量创建表？

[英]How to CREATE TABLE USING delta with Spark 2.4.4?

如何向增量表中的 updateExpr 添加复杂逻辑

[英]How to add complex logic to updateExpr in a Delta Table

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从 Pyspark 中的 dataframe 插入或更新增量表如何删除 Delta 表中的重复项？如何将增量表中的数据插入到变量中，以便对它们应用流口水规则如何获取增量表的最新插入时间？如何从 Databricks Delta 表中删除列？如何将增量表回滚到以前的版本 Pyspark: Delta表为stream源，怎么办？如何向 Delta Lake 表添加新列？如何在 Spark 2.4.4 中使用增量创建表？如何向增量表中的 updateExpr 添加复杂逻辑

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM