簡體   English   中英

如何將dbf文件轉換為dask數據框?

[英]How to convert a dbf file to a dask dataframe?

我有一個很大的dbf文件,將其轉換為熊貓數據幀需要花費大量時間。 有沒有一種方法可以將文件轉換為dask數據框?

Dask沒有dbf加載方法。

據我所知,dbf文件不支持對數據的隨機訪問,因此不可能從單獨的工作線程中並行讀取文件的各個部分。 我對此可能是錯的,但是dbfreader當然沒有提到跳轉到任意記錄。

因此,您可以並行從dbf讀取並希望看到速度提高的唯一方法是將原始數據拆分為多個dbf文件,並使用dask.delayed讀取每個文件。

值得一提的是,dbfreader速度較慢的原因(但請您自己進行分析!)是在將記錄傳遞給熊貓之前,它正在逐字節操作並為每個記錄創建python對象。 如果您真的想加快速度,則應將此代碼轉換為cython或numba,並分配一個預分配的數據幀。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM