繁体   English   中英

轻松读取具有不同架构的多个实木复合地板文件

[英]dask read multiple parquet files with different schemas

我想用dask读取具有不同方案的多个镶木文件到pandas数据帧,并能够合并这些方案。 当我谈论不同的方案时,我的意思是,在所有这些文件中都有公共列,但在某些文件中有一些其他列中不存在的列。

不幸的是,当我用

dd.read_parquet(my_parquet_files, engine="fastparquet")

我只有共同的专栏阅读。 我知道在spark中有一个读取选项mergeSchema ,我想知道是否有一种简单的方法可以做到这一点?

我建议先阅读不同类型的文件,然后将它们与dd.concat串联。

dfs = [dd.read_parquet(...) for ... in ...]
df = dd.concat(dfs, axis=0)

然后,Pandas用来连接具有混合列的数据帧的任何策略都将接管。 如果熊猫支持这种行为,那么Dask数据框可能会支持这种行为。

如果没有,那么听起来您正在请求功能请求,在这种情况下,您可能应该在https://github.com/dask/dask/issues/new上提出问题

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM