繁体 English 中英

增量表、增量日志、分区等的 Databricks / Spark 存储机制

[英]Databricks / Spark storage mechanism for Delta Tables, Delta Logs, Partitions etc

原文 2022-05-20 13:44:30 3 1 apache-spark/ pyspark/ databricks/ delta-lake/ hive-partitions

我试图了解如何在 DataBricks 环境中存储和管理数据。 我对幕后发生的事情有相当不错的了解，但在网上看到了一些相互矛盾的信息，因此希望得到详细的解释以巩固我的理解。 要问我的问题，我想总结一下我在 Apache Spark 开发人员课程中的练习之一中所做的工作。

作为练习的一部分，我在 Databricks 平台上执行了以下步骤：

启动了我的集群
将 parquet 文件读取为 DataFrame
将 DataFrame 作为 Delta 表存储在我的 DBFS 用户目录中
对上一步中创建的 Delta Table 进行了一些更改
基于特定列（例如 State）对相同的 Delta 表进行分区，并使用覆盖模式保存在 DBFS 的相同用户目录中

完成上述步骤后，我的 DBFS 目录如下所示：

DBFS 增量日志目录

在我用来存储增量表（上图）的根文件夹中，我有以下类型的文件夹/文件

增量日志文件夹
具有“状态”名称的文件夹（步骤 5。上一节），每个状态文件夹还包含 4 个镶木地板文件，我怀疑它们是数据集的分区
我怀疑四个单独的镶木地板文件是我创建此增量表时的文件（在上一节的第 3 步中）

基于上述练习，以下是我的问题：

是我在上述目录中看到的数据 - 包含分布在我的节点上的分区、镶木地板文件、增量日志等的状态命名文件夹（我认为答案是肯定的）。
根文件夹中的四个 parquet 文件（从我创建 delta 表时开始，在分区之前）——假设它们分布在我的节点上——它们是否存储在我节点的 RAM 中？ delta_log 文件夹中的数据存储在哪里？ 如果它跨我的节点 - 它是存储在 RAM 还是磁盘内存中？
数据（每个州名称文件夹下的镶木地板文件/分区 - 来自上面的屏幕截图）存储在哪里？ 如果这也分布在我的节点上，它是在内存 (RAM) 中还是在磁盘上？

我在网上看到的一些答案说所有分区都存储在内存（RAM）中。 按照这种逻辑，一旦我关闭集群 - 它们应该从内存中删除，对吗？

但是，即使我关闭集群，我也能够查看 DBFS 中的所有数据（与我上面包含的图片完全相同）。 我怀疑一旦关闭集群，RAM 就会被清除，因此我应该看不到 RAM 中的任何数据。 我的理解不正确吗？

如果您能尽可能详细地按顺序回答我的问题，将不胜感激。

1 个解决方案

当您将数据写入DBFS时，它会存储在与集群分开的某种形式的永久对象存储中。 这就是集群关闭后它仍然存在的原因。 这是什么存储取决于您运行 Databricks 工作区的云。

这是分离计算和存储的主要思想，您的集群是其他地方的计算和存储。 只有当您读入并处理数据时，它才会分布在您的节点上进行处理。 一旦您的集群关闭节点上的所有数据，RAM 或磁盘就会消失，除非您已将其写入某种形式的永久存储。

Databricks 增量存储 - 缓存表以提高性能

[英]Databricks Delta storage - Caching tables for performance

如何使用 PySpark/Spark 流将数据并行合并到数据块增量表的分区中？

[英]How to parallelly merge data into partitions of databricks delta table using PySpark/Spark streaming?

三角洲湖中使用的 spark.databricks.delta.snapshotPartitions 配置是什么？

[英]what is spark.databricks.delta.snapshotPartitions configuration used for in delta lake?

什么是数据块火花增量表？它们是否还存储特定会话的数据以及如何查看这些增量表及其结构

[英]What are databricks spark delta tables? Does they also stores data for a specific session and how can I view these delta tables and their structure

databricks 中的 Delta 湖 - 为现有存储创建表

[英]Delta lake in databricks - creating a table for existing storage

如何列出 Databricks Azure 中的所有增量表？

[英]How to list all delta tables in Databricks Azure?

如何从 QlikView 连接到 Databricks Delta 表？

[英]How to connect to Databricks Delta tables from QlikView?

azure HDInsight 上的增量表与 azure blob 存储

[英]delta tables on azure HDInsight with azure blob storage

使用 Delta 格式覆盖 spark 数据帧写入方法中的特定分区

[英]Overwrite specific partitions in spark dataframe write method with Delta format

通过 MLflow 项目中的 Spark 访问 Databricks 中的 Delta Lake Table

[英]Accessing Delta Lake Table in Databricks via Spark in MLflow project

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Databricks 增量存储 - 缓存表以提高性能如何使用 PySpark/Spark 流将数据并行合并到数据块增量表的分区中？三角洲湖中使用的 spark.databricks.delta.snapshotPartitions 配置是什么？什么是数据块火花增量表？它们是否还存储特定会话的数据以及如何查看这些增量表及其结构 databricks 中的 Delta 湖 - 为现有存储创建表如何列出 Databricks Azure 中的所有增量表？如何从 QlikView 连接到 Databricks Delta 表？ azure HDInsight 上的增量表与 azure blob 存储使用 Delta 格式覆盖 spark 数据帧写入方法中的特定分区通过 MLflow 项目中的 Spark 访问 Databricks 中的 Delta Lake Table

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM