[英]Read parquet metadata with pandas from Google Cloud Storage
由于这个答案(阅读第一个答案),我能够读取位于 GCS 上的镶木地板文件。 我使用了pd.read_parquet
函数和 pyarrow 引擎。 我现在想访问镶木地板元数据,而无需将数据下载到数据框中。 有可能用熊猫做到这一点吗?
我找到了一个解决方案,使用没有 Pandas 的gcsfs
:
import pyarrow.parquet as pq
import gcsfs
fs = gcsfs.GCSFileSystem(project=myprojectname)
f = fs.open(myfilepath)
myschema = pq.ParquetFile(f).schema
print(myschema)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.