繁体 English 中英

通过数据块从 ADLS gen2 存储中的多个文件夹中读取文件并创建单个目标文件

[英]Read files from multiple folders from ADLS gen2 storage via databricks and create single target file

原文 2021-11-03 19:34:21 6 1 python/ azure-databricks/ azure-data-lake

我正在使用数据块服务进行分析。 我已经建立了与 ADLS gen2 存储的连接并创建了一个挂载点，现在该容器包含多个文件夹，并且每个月文件夹中都有每个月的镶木地板文件。 我必须阅读所有这些文件并创建一个包含完整月份数据的目标文件。 我如何实现它任何人都可以建议？

1 个解决方案

假设您的镶木地板文件遵循特定的目录模式，您可以使用通配符。

如果您的文件以/mnt/point/folder/YYYY/MM/foo.parquet这样的模式编写，您可以使用/mnt/point/folder/*/*遍历所有 YYYY 和 MM 文件夹和文件

这是一个可重现的 pyspark 示例，假设您有一个名为“data”的挂载点。

df_A = spark.createDataFrame([
    ['a',1],
    ['a',2],
    ['a',3]
], ["Letter", "Number"])
df_B = spark.createDataFrame([
    ['b',1],
    ['b',2],
    ['b',3]
], ["Letter", "Number"])

df_A.write.parquet('/mnt/data/mydata/1999/01')
df_B.write.parquet('/mnt/data/mydata/2001/09')

new_df = spark.read.parquet('/mnt/data/mydata/*/*')

根据@Alex Ott 的评论，如果您的数据已分区（例如，有一个名为 year=1999 的文件夹和名为 month=01、month=02 等的子文件夹），您可以利用分区发现，并且 spark 会更智能地意识到它应该遍历所有子文件夹。

如何从 pyspark 数据块在 ADLS gen2 中创建目录

[英]How to create directory in ADLS gen2 from pyspark databricks

Azure Databricks pyspark readstream 从挂载的ADLS Gen2输入路径读取非orc文件

[英]Azure Databricks pyspark readstream reads non orc files from the mounted ADLS Gen2 input path

从 Azure Databricks 中的 Azure Datalake Gen2 读取 .nc 文件

[英]Read .nc files from Azure Datalake Gen2 in Azure Databricks

如何通过读取存储在 Databrciks 中的 adls gen2 中的 csv 文件（特定列）来创建 ADLS gen2 中的文件夹

[英]how to ceate folders in ADLS gen2 by reading a csv file(particular column) stored in adls gen2 in Databrciks

如何使用 Azure 数据块读取和写入来自 ADLS gen 2 的多个工作表的 Excel 数据

[英]How to use Azure databricks to read and write excel data with multiple sheets from ADLS gen 2

great_expectations 在 ADLS Gen2 上创建 csv 文件的数据源

[英]great_expectations create datasource of csv files on ADLS Gen2

使用 Python（无 ADB）读取 Azure ADLS Gen2 文件

[英]Azure ADLS Gen2 File read using Python (without ADB)

如何使用 Azure Synapse 和 pySpark 笔记本从 ADLS gen2 检索 .dcm 图像文件？

[英]How to retrieve .dcm image files from the ADLS gen2 using Azure Synapse and pySpark notebook?

从 Databricks ADLS 挂载点读取文件作为字节字符串

[英]Read a file as byte string from a Databricks ADLS mount point

Azure Data Lake Storage Gen2 (ADLS Gen2) 作为 Kedro 管道的数据源

[英]Azure Data Lake Storage Gen2 (ADLS Gen2) as a data source for Kedro pipeline

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何从 pyspark 数据块在 ADLS gen2 中创建目录 Azure Databricks pyspark readstream 从挂载的ADLS Gen2输入路径读取非orc文件从 Azure Databricks 中的 Azure Datalake Gen2 读取 .nc 文件如何通过读取存储在 Databrciks 中的 adls gen2 中的 csv 文件（特定列）来创建 ADLS gen2 中的文件夹如何使用 Azure 数据块读取和写入来自 ADLS gen 2 的多个工作表的 Excel 数据 great_expectations 在 ADLS Gen2 上创建 csv 文件的数据源使用 Python（无 ADB）读取 Azure ADLS Gen2 文件如何使用 Azure Synapse 和 pySpark 笔记本从 ADLS gen2 检索 .dcm 图像文件？从 Databricks ADLS 挂载点读取文件作为字节字符串 Azure Data Lake Storage Gen2 (ADLS Gen2) 作为 Kedro 管道的数据源

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM