繁体   English   中英

如何将包含数组列的Dask数据框写入拼花文件

[英]How to write a Dask dataframe containing a column of arrays to a parquet file

我有一个Dask数据框,其中一列包含一个浮点数的numpy数组:

import dask.dataframe as dd
import pandas as pd
import numpy as np

df = dd.from_pandas(
    pd.DataFrame(
        {
            'id':range(1, 6),
            'vec':[np.array([1.0, 2.0, 3.0, 4.0, 5.0])] * 5
        }), npartitions=1)

df.compute()

   id                        vec
0   1  [1.0, 2.0, 3.0, 4.0, 5.0]
1   2  [1.0, 2.0, 3.0, 4.0, 5.0]
2   3  [1.0, 2.0, 3.0, 4.0, 5.0]
3   4  [1.0, 2.0, 3.0, 4.0, 5.0]
4   5  [1.0, 2.0, 3.0, 4.0, 5.0]

如果我尝试将其写为实木复合地板,则会出现错误:

df.to_parquet('somefile')
....
Error converting column "vec" to bytes using encoding UTF8. Original error: bad argument type for built-in operation

我认为这是因为“ vec”列的类型为“ object”,因此镶木地板序列化程序尝试将其写为字符串。 有什么方法可以告诉Dask DataFrame或序列化器该列是float数组吗?

我发现有可能使用pyarrow引擎代替默认的fastparquet:

pip/conda install pyarrow

然后:

df.to_parquet('somefile', engine='pyarrow')

https://github.com/dask/fastparquet/上的 fastparquet文档说“仅支持简单的数据类型和纯编码”,所以我想这意味着没有数组。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM