簡體   English   中英

如何從Dask中的鑲木地板文件中讀取數據幀的單行值?

[英]How to get a single row value of dataframe reading from parquet files in a Dask?

問題:DASK數據幀

loc[concrete_row, concrete_column] 

返回具有多個行的pandas數據框,每個行具有相同的索引:

0                   [1,2,3]
0                   [1,2]
0                   [3]

而不是一行值。

0                   [1,2,3]

我正在閱讀許多鑲木地板文件:

dd.read_parquet(dataset_dir+'/train/date*/*.parquet')

鑲木地板文件中的每一行都有一個數組!

  • 似乎在調用具體行時,dask數據幀返回每個分區的此行索引的所有分區值。
  • 從鑲木地板文件中讀取時,所有部門都沒有
  • 我嘗試set_index並設置分區,但它變得太慢了

我需要為每一行調用map函數並獲取此具體行的可迭代值。 我該如何解決?

我需要為每一行調用map函數並獲取此具體行的可迭代值。

聽起來你想要地圖或應用方法。

def func(row):
    return ...

result = df.apply(func)

通常,像Dask這樣的並行計算工具不太適合一次獲取一行數據。 相反,並行地在所有行中應用函數是很常見的。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM