繁体   English   中英

将dask数据帧转换为avro

[英]Convert dask dataframe to avro

我有一个带有100个分区和57列的dask数据帧。 我想将其保存为Google云端存储上的avro。 我已经检查了intake-avro lib ,但是它只能将avro转换为dask数据帧,反之亦然。

有没有lib可以做到这一点,还是我应该自己编写? 我想确保我不重新发明轮子。

确实,无人驾驶飞机(和其他进气驱动器)与格式/服务->熟悉的容器有关,而与输出无关。

Avro的不是,一般来说,一列格式,因此将其与DASK写,你需要一个bag ,而不是一个dataframe 你会想做:

df.to_bag().to_avro(...)

(见文档

不幸的是,您将需要构造自己的模式JSON对象,从原始数据框的dtypes中应该相当容易。

可以将avro和Dask用于将avro快速读取到数据帧uavro的库在某些时候扩展为写入。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM