[英]What are the major differences between S3 lake formation governed tables and databricks delta tables?
S3 湖泊形成管理表和数据块增量表之间的主要区别是什么? 它们看起来很相似。
治理表、Delta Lake,在某种程度上还有 Apache Iceberg 和 Hudi 都是表格数据格式。 因此,它们不是以原始格式(parquet、orc、avro)存储数据,它们都有一个额外的清单文件,提供有关在某个 state 期间表中存在哪些文件的元数据。 这使他们都可以启用 ACID 事务、时间旅行和快照等功能。
目前的主要区别在于它们可以集成哪些大数据工具。
AWS Governed 表与所有 AWS 紧密集成。 它可以轻松利用 Lake Formation 权限 model 来管理数据目录对象(数据库、表和列)的访问。 它还允许您使用 AWS 查询引擎:Redshift Spectrum 和 Athena。 尚不支持 Spark。
Delta Lakes 在 Spark 上提供 ACID 事务、时间旅行和快照。 它还支持 Spark 流和数据变异。
那么 Glue 表和 Governed 表以及 Hudi、Iceberg 和 Delta Lake 之间的区别是什么?
Glue 表还允许从 Athena、Redshift Spectrum、Glue 和 Spark 作业中查询 S3 parquet 文件。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.