繁体   English   中英

如何将dbf文件转换为dask数据框?

[英]How to convert a dbf file to a dask dataframe?

我有一个很大的dbf文件,将其转换为熊猫数据帧需要花费大量时间。 有没有一种方法可以将文件转换为dask数据框?

Dask没有dbf加载方法。

据我所知,dbf文件不支持对数据的随机访问,因此不可能从单独的工作线程中并行读取文件的各个部分。 我对此可能是错的,但是dbfreader当然没有提到跳转到任意记录。

因此,您可以并行从dbf读取并希望看到速度提高的唯一方法是将原始数据拆分为多个dbf文件,并使用dask.delayed读取每个文件。

值得一提的是,dbfreader速度较慢的原因(但请您自己进行分析!)是在将记录传递给熊猫之前,它正在逐字节操作并为每个记录创建python对象。 如果您真的想加快速度,则应将此代码转换为cython或numba,并分配一个预分配的数据帧。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM