繁体   English   中英

S3 湖泊形成管理表和数据块增量表之间的主要区别是什么?

[英]What are the major differences between S3 lake formation governed tables and databricks delta tables?

S3 湖泊形成管理表和数据块增量表之间的主要区别是什么? 它们看起来很相似。

治理表、Delta Lake,在某种程度上还有 Apache Iceberg 和 Hudi 都是表格数据格式。 因此,它们不是以原始格式(parquet、orc、avro)存储数据,它们都有一个额外的清单文件,提供有关在某个 state 期间表中存在哪些文件的元数据。 这使他们都可以启用 ACID 事务、时间旅行和快照等功能。

目前的主要区别在于它们可以集成哪些大数据工具。

AWS Governed 表与所有 AWS 紧密集成。 它可以轻松利用 Lake Formation 权限 model 来管理数据目录对象(数据库、表和列)的访问。 它还允许您使用 AWS 查询引擎:Redshift Spectrum 和 Athena。 尚不支持 Spark。

Delta Lakes 在 Spark 上提供 ACID 事务、时间旅行和快照。 它还支持 Spark 流和数据变异。

那么 Glue 表和 Governed 表以及 Hudi、Iceberg 和 Delta Lake 之间的区别是什么?

Glue 表还允许从 Athena、Redshift Spectrum、Glue 和 Spark 作业中查询 S3 parquet 文件。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM