繁体 English 中英

没有 Databricks 运行时的 Delta Lake

[英]Delta Lake without Databricks Runtime

原文 2020-03-23 16:05:42 3 4 apache-spark/ hdfs/ databricks/ delta-lake

可以使用 Delta Lake 而不依赖于 Databricks Runtime 吗？ （我的意思是，是否可以仅将 delta-lake 与 hdfs 和 spark on prem 一起使用？）如果不是，您能否从技术角度详细说明为什么会这样？

4 个解决方案

是的，delta Lake 已经由 databricks ( https://delta.io/ ) 开源。 我正在使用 deltalake(0.6.1) 和 apache spark(2.4.5) & S3。 许多其他集成也可用于适应现有技术堆栈，例如集成 hive、presto、athena 等。连接器： https : //github.com/delta-io/connectors集成： https : //docs.delta.io/latest/ presto-integration.html & https://docs.delta.io/latest/integrations.html

根据这个https://vimeo.com/338100834 ，可以在没有 Databricks Runtime 的情况下使用 Delta Lake。 Delta Lake 只是一个库，它通过在每个表之外维护一个特殊的事务日志来“知道”如何以事务方式写入和读取表（镶木地板文件的集合）。 当然，需要用于外部应用程序（例如 hive）的特殊连接器才能使用此类表。 否则，无法执行事务性和一致性保证。

根据文档： https : //docs.delta.io/latest/quick-start.html#set-up-apache-spark-with-delta-lake ，delta Lake 已经开源以与 Apache Spark 一起使用。 通过将 delta Lake jar 添加到代码或将库添加到 spark 安装路径，可以轻松完成集成。 Hive 集成可以使用： https : //github.com/delta-io/connectors完成。

Delta Lake 是一个开源项目，可以在 S3、ADLS、GCS 和 HDFS 等现有存储系统之上构建 Lakehouse 架构。

您可以在此处找到增量的 GitHub 存储库： https : //github.com/delta-io/delta

简而言之，您也可以在没有 Databricks 运行时的情况下使用 Delta Lake，因为它是开源的，但是使用 Databricks，您可以将其作为托管商业产品使用，并进行一些默认情况下无法获得的优化。

从 Databricks 中的 UDF 内部查询 Delta Lake

[英]Querying Delta Lake from Inside of UDF in Databricks

databricks 中的 Delta 湖 - 为现有存储创建表

[英]Delta lake in databricks - creating a table for existing storage

优化 Delta Lake 中的合并（Databricks 开源）

[英]Optimizing Merge in Delta Lake (Databricks Open Source )

三角洲湖中使用的 spark.databricks.delta.snapshotPartitions 配置是什么？

[英]what is spark.databricks.delta.snapshotPartitions configuration used for in delta lake?

通过 MLflow 项目中的 Spark 访问 Databricks 中的 Delta Lake Table

[英]Accessing Delta Lake Table in Databricks via Spark in MLflow project

databricks 中的 delta 湖 - stream 的最后半小时的一致“视图”

[英]delta lake in databricks - a consistent “view” of just the last half hour of a stream

Databricks 集群是否需要始终保持 Delta Lake 的 VACUUM 操作？

[英]Does Databricks cluster need to be always up for VACUUM operation of Delta Lake?

如何在没有数据块的情况下“挂载”第一代数据湖

[英]How to “mount” data lake gen 1 without databricks

在没有 Internet 访问的服务器上安装 Delta Lake 库

[英]Install Delta Lake libraries on a server without internet access

重复数据删除 Delta Lake 表

[英]Deduplicate Delta Lake Table

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从 Databricks 中的 UDF 内部查询 Delta Lake databricks 中的 Delta 湖 - 为现有存储创建表优化 Delta Lake 中的合并（Databricks 开源）三角洲湖中使用的 spark.databricks.delta.snapshotPartitions 配置是什么？通过 MLflow 项目中的 Spark 访问 Databricks 中的 Delta Lake Table databricks 中的 delta 湖 - stream 的最后半小时的一致“视图” Databricks 集群是否需要始终保持 Delta Lake 的 VACUUM 操作？如何在没有数据块的情况下“挂载”第一代数据湖在没有 Internet 访问的服务器上安装 Delta Lake 库重复数据删除 Delta Lake 表

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM