[英]How to get a single row value of dataframe reading from parquet files in a Dask?
問題:DASK數據幀
loc[concrete_row, concrete_column]
返回具有多個行的pandas數據框,每個行具有相同的索引:
0 [1,2,3]
0 [1,2]
0 [3]
而不是一行值。
0 [1,2,3]
我正在閱讀許多鑲木地板文件:
dd.read_parquet(dataset_dir+'/train/date*/*.parquet')
鑲木地板文件中的每一行都有一個數組!
我需要為每一行調用map函數並獲取此具體行的可迭代值。 我該如何解決?
我需要為每一行調用map函數並獲取此具體行的可迭代值。
聽起來你想要地圖或應用方法。
def func(row):
return ...
result = df.apply(func)
通常,像Dask這樣的並行計算工具不太適合一次獲取一行數據。 相反,並行地在所有行中應用函數是很常見的。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.