繁体 English 中英

如何按列值将 pyspark dataframe 处理为分组

[英]How to process pyspark dataframe as group by column value

原文 2020-04-22 14:59:15 9 1 apache-spark/ pyspark

我有一个巨大的 dataframe 不同的item_id及其相关数据，我需要使用item_id并行处理每个组，我尝试使用下面的整个代码按item_id repartition dataframe，但似乎它仍然被处理为不是块

data = sqlContext.read.csv(path='/user/data', header=True)
columns = data.columns    
result = data.repartition('ITEM_ID') \
        .rdd \
        .mapPartitions(lambda iter: pd.DataFrame(list(iter), columns=columns))\
        .mapPartitions(scan_item_best_model)\
        .collect()

也是repartition是正确的方法还是做错了什么？

1 个解决方案

环顾四周后，我发现这个解决了类似的问题，最后我不得不像这样解决它

data = sqlContext.read.csv(path='/user/data', header=True)

columns = data.columns

df = data.select("ITEM_ID", F.struct(columns).alias("df"))

df = df.groupBy('ITEM_ID').agg(F.collect_list('df').alias('data'))

df = df.rdd.map(lambda big_df: (big_df['ITEM_ID'], pd.DataFrame.from_records(big_df['data'], columns=columns))).map(
    scan_item_best_model)

如何根据 PySpark 中的另一个数据框列处理数据框列？

[英]How to process a dataframe column based on another dataframe column in PySpark?

PySpark：如何根据公共列对 dataframe 行进行分组或折叠

[英]PySpark: how to group or collapse dataframe rows based on a common column

修改 Pyspark 中 dataframe 的列值

[英]Modifying column value of a dataframe in Pyspark

如何从pyspark的数据框列中获取第一个值和最后一个值？

[英]how to get first value and last value from dataframe column in pyspark?

如何用另一个值替换 Pyspark Dataframe 列中的特定值？

[英]How to replace a particular value in a Pyspark Dataframe column with another value?

将组计数列添加到 PySpark 数据框

[英]Adding a group count column to a PySpark dataframe

Pyspark DataFrame 列基于另一个 DataFrame 值

[英]Pyspark DataFrame column based on another DataFrame value

如何查找pyspark数据帧的特定列是否包含数值

[英]How to find if a specific column of a pyspark dataframe contains numeric value

Pyspark：如何从 Dataframe 中的特定列值引导

[英]Pyspark : How to lead from specific column value in Dataframe

如何查找 PySpark DataFrame 列中的连续值并替换值

[英]How to Find the consecutive values in PySpark DataFrame column and replace the value

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何根据 PySpark 中的另一个数据框列处理数据框列？ PySpark：如何根据公共列对 dataframe 行进行分组或折叠修改 Pyspark 中 dataframe 的列值如何从pyspark的数据框列中获取第一个值和最后一个值？如何用另一个值替换 Pyspark Dataframe 列中的特定值？将组计数列添加到 PySpark 数据框 Pyspark DataFrame 列基于另一个 DataFrame 值如何查找pyspark数据帧的特定列是否包含数值 Pyspark：如何从 Dataframe 中的特定列值引导如何查找 PySpark DataFrame 列中的连续值并替换值

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM