簡體 English 中英

如何按列值將 pyspark dataframe 處理為分組

[英]How to process pyspark dataframe as group by column value

原文 2020-04-22 14:59:15 4 1 apache-spark/ pyspark

我有一個巨大的 dataframe 不同的item_id及其相關數據，我需要使用item_id並行處理每個組，我嘗試使用下面的整個代碼按item_id repartition dataframe，但似乎它仍然被處理為不是塊

data = sqlContext.read.csv(path='/user/data', header=True)
columns = data.columns    
result = data.repartition('ITEM_ID') \
        .rdd \
        .mapPartitions(lambda iter: pd.DataFrame(list(iter), columns=columns))\
        .mapPartitions(scan_item_best_model)\
        .collect()

也是repartition是正確的方法還是做錯了什么？

1 個解決方案

環顧四周后，我發現這個解決了類似的問題，最后我不得不像這樣解決它

data = sqlContext.read.csv(path='/user/data', header=True)

columns = data.columns

df = data.select("ITEM_ID", F.struct(columns).alias("df"))

df = df.groupBy('ITEM_ID').agg(F.collect_list('df').alias('data'))

df = df.rdd.map(lambda big_df: (big_df['ITEM_ID'], pd.DataFrame.from_records(big_df['data'], columns=columns))).map(
    scan_item_best_model)

如何根據 PySpark 中的另一個數據框列處理數據框列？

[英]How to process a dataframe column based on another dataframe column in PySpark?

PySpark：如何根據公共列對 dataframe 行進行分組或折疊

[英]PySpark: how to group or collapse dataframe rows based on a common column

修改 Pyspark 中 dataframe 的列值

[英]Modifying column value of a dataframe in Pyspark

如何從pyspark的數據框列中獲取第一個值和最后一個值？

[英]how to get first value and last value from dataframe column in pyspark?

如何用另一個值替換 Pyspark Dataframe 列中的特定值？

[英]How to replace a particular value in a Pyspark Dataframe column with another value?

將組計數列添加到 PySpark 數據框

[英]Adding a group count column to a PySpark dataframe

Pyspark DataFrame 列基於另一個 DataFrame 值

[英]Pyspark DataFrame column based on another DataFrame value

如何查找pyspark數據幀的特定列是否包含數值

[英]How to find if a specific column of a pyspark dataframe contains numeric value

Pyspark：如何從 Dataframe 中的特定列值引導

[英]Pyspark : How to lead from specific column value in Dataframe

如何查找 PySpark DataFrame 列中的連續值並替換值

[英]How to Find the consecutive values in PySpark DataFrame column and replace the value

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何根據 PySpark 中的另一個數據框列處理數據框列？ PySpark：如何根據公共列對 dataframe 行進行分組或折疊修改 Pyspark 中 dataframe 的列值如何從pyspark的數據框列中獲取第一個值和最后一個值？如何用另一個值替換 Pyspark Dataframe 列中的特定值？將組計數列添加到 PySpark 數據框 Pyspark DataFrame 列基於另一個 DataFrame 值如何查找pyspark數據幀的特定列是否包含數值 Pyspark：如何從 Dataframe 中的特定列值引導如何查找 PySpark DataFrame 列中的連續值並替換值

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM