繁体   English   中英

没有 Databricks 运行时的 Delta Lake

[英]Delta Lake without Databricks Runtime

可以使用 Delta Lake 而不依赖于 Databricks Runtime 吗? (我的意思是,是否可以仅将 delta-lake 与 hdfs 和 spark on prem 一起使用?)如果不是,您能否从技术角度详细说明为什么会这样?

是的,delta Lake 已经由 databricks ( https://delta.io/ ) 开源。 我正在使用 deltalake(0.6.1) 和 apache spark(2.4.5) & S3。 许多其他集成也可用于适应现有技术堆栈,例如集成 hive、presto、athena 等。 连接器: https : //github.com/delta-io/connectors集成: https : //docs.delta.io/latest/ presto-integration.html & https://docs.delta.io/latest/integrations.html

根据这个https://vimeo.com/338100834 ,可以在没有 Databricks Runtime 的情况下使用 Delta Lake。 Delta Lake 只是一个库,它通过在每个表之外维护一个特殊的事务日志来“知道”如何以事务方式写入和读取表(镶木地板文件的集合)。 当然,需要用于外部应用程序(例如 hive)的特殊连接器才能使用此类表。 否则,无法执行事务性和一致性保证。

根据文档: https : //docs.delta.io/latest/quick-start.html#set-up-apache-spark-with-delta-lake ,delta Lake 已经开源以与 Apache Spark 一起使用。 通过将 delta Lake jar 添加到代码或将库添加到 spark 安装路径,可以轻松完成集成。 Hive 集成可以使用: https : //github.com/delta-io/connectors完成。

Delta Lake 是一个开源项目,可以在 S3、ADLS、GCS 和 HDFS 等现有存储系统之上构建 Lakehouse 架构。

您可以在此处找到增量的 GitHub 存储库: https : //github.com/delta-io/delta

简而言之,您也可以在没有 Databricks 运行时的情况下使用 Delta Lake,因为它是开源的,但是使用 Databricks,您可以将其作为托管商业产品使用,并进行一些默认情况下无法获得的优化。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM