繁体   English   中英

如何使用PySpark读取目录下的Parquet文件?

[英]How to read Parquet files under a directory using PySpark?

我在网上搜索过,网上提供的解决方案并没有解决我的问题。 我正在尝试读取分层目录下的镶木地板文件。 我收到以下错误。

'无法推断 Parquet 的架构。 必须手动指定。;'

我的目录结构如下:dbfs:/mnt/sales/region/country/2020/08/04

年文件夹下会有多个月子目录,月下会有天子目录。

我只想在销售级别阅读它们,这应该为所有地区提供帮助,我已经尝试了以下两种代码,但都没有用。 请帮我解决一下这个。

spark.read.parquet("dbfs:/mnt/sales/*")

或者

spark.read.parquet("dbfs:/mnt/sales/")

你可以试试这个选项吗?

df = spark.read.option("header","true").option("recursiveFileLookup","true").parquet("/path/to/root/")
path = '/mnt/container_name/root_dir/folder_name'
df = spark.read.format('parquet').options(header=True,inferSchema=True).load(path)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM