[英]¿How do I read multiple files from multiple folders in Python
我必须阅读不同年份的多个文件夹中的“.parquet”文件。 1、2年这不是问题,但是超过2年就更复杂了,因为每个月都要读12个子目录。 我展示了一个例子,说明我如何以低效的方式做到这一点。
df_2019_01=spark.read.parquet('/2019/01/name.parquet/')
df_2019_02=spark.read.parquet('/2019/02/name.parquet/')
df_2019_03=spark.read.parquet('/2019/03/name.parquet/')
df_2019_04=spark.read.parquet('/2019/04/name.parquet/')
#...
df_2019_12=spark.read.parquet('/2019/12/name.parquet/')
df_2020_01=spark.read.parquet('/2020/01/name.parquet/')
df_2020_02=spark.read.parquet('/2020/02/name.parquet/')
df_2020_03=spark.read.parquet('/2020/03/name.parquet/')
df_2020_04=spark.read.parquet('/2020/04/name.parquet/')
#...
df_2020_12=spark.read.parquet('/2020/12/name.parquet/')
df = df_2019_01.union(df_2019_02).union(df_2019_03).union(df_2019_04).union(df_2020_12)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.