使用数据块中的 pyspark 将多个 json 文件从 blob 存储读取到数据帧

Question

我正在尝试将所有 json 文件存储在 blob 存储的子文件夹中的单个容器中。 我已经在 databricks 中设置了环境并链接了连接。 目前我正在使用此代码

df = spark.read.json("wasbs://container_name@blob_storage_account.blob.core.windows.net/sub_folder/*.json")

但即使在包含通配符/*.json之后，我也只得到第一个文件，而不是子文件夹中存在的所有 json 文件。

我正在尝试从单个数据框中的子文件夹中获取所有文件，并将其作为表存储在 sql 数据库中。

有人可以协助我所缺少的。

Answer 1

我已经在我的环境中进行了测试。

我在存储帐户中容器的子文件夹中有 3 个 json blob 文件。 我能够在单个数据框中读取所有 blob json 文件

您可以使用以下代码在单个数据框中显示子文件夹中的所有 json 文件

df = spark.read.json("wasbs://container_name@blob_storage_account.blob.core.windows.net/sub_folder/*.json")
df.show()