繁体   English   中英

使用数据块中的 pyspark 将多个 json 文件从 blob 存储读取到数据帧

[英]Read multiple json files from blob storage to dataframe using pyspark in databricks

我正在尝试将所有 json 文件存储在 blob 存储的子文件夹中的单个容器中。 我已经在 databricks 中设置了环境并链接了连接。 目前我正在使用此代码

df = spark.read.json("wasbs://container_name@blob_storage_account.blob.core.windows.net/sub_folder/*.json")

但即使在包含通配符/*.json之后,我也只得到第一个文件,而不是子文件夹中存在的所有 json 文件。

我正在尝试从单个数据框中的子文件夹中获取所有文件,并将其作为表存储在 sql 数据库中。

有人可以协助我所缺少的。

我已经在我的环境中进行了测试。

我在存储帐户中容器的子文件夹中有 3 个 json blob 文件。 我能够在单个数据框中读取所有 blob json 文件

在此处输入图片说明

您可以使用以下代码在单个数据框中显示子文件夹中的所有 json 文件

df = spark.read.json("wasbs://container_name@blob_storage_account.blob.core.windows.net/sub_folder/*.json")
df.show()

在此处输入图片说明

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM