如何在增量表上运行 sql 查询

Question

我对 delta Lake 文档有疑问。 我知道我可以使用 presto、hive、spark sql 和其他工具查询 delta 表，但在 delta 的文档中提到“您可以通过指定表名称 ae 将 Delta 表加载为 ZBA834BA059A9A379459C1121 或 Z5EB88”

但目前还不清楚。 我怎样才能像这样运行 sql 查询？

Answer 1

使用spark.sql() function

spark.sql("select * from delta.`hdfs://192.168.2.131:9000/Delta_Table/test001`").show()

Answer 2

要从 DeltaLake 中的表中读取数据，可以使用 Java API 或 Python而不使用 ZE902794AE04A06F4A 详见： https://databricks.com/blog/2020/12/22/natively-query-your-delta-lake-with-scala-java-and-python.html

了解如何与 Pandas 一起使用：

pip3 install deltalake
python3

from deltalake import DeltaTable
table_path = "/opt/data/delta/my-table" # whatever table name and object store
# now using Pandas
df = DeltaTable(table_path).to_pandas()
df

如何在增量表上运行 sql 查询

问题描述

2 个解决方案

解决方案1
0

解决方案2
0 2022-01-21 19:57:11

如何在增量表上运行 sql 查询

问题描述

2 个解决方案

解决方案1 0

解决方案2 0 2022-01-21 19:57:11

解决方案1
0

解决方案2
0 2022-01-21 19:57:11