從pyspark數據框創建multidict

Question

我是pyspark的新手，並且想從pyspark數據框創建字典。 我確實有一個正常的熊貓代碼，但是我需要在pyspark中使用一個等效的命令，但是我不知道該怎么做。

df = spark.createDataFrame([
(11, 101, 5.9),
(11, 102, 5.4),
(22, 111, 5.2),
(22, 112, 5.9),
(22, 101, 5.7),
(33, 101, 5.2),
(44, 102, 5.3),
], ['user_id', 'team_id', 'height'])
df = df.select(['user_id', 'team_id'])
df.show()

-------+-------+
|user_id|team_id|
+-------+-------+
|     11|    101|
|     11|    102|
|     22|    111|
|     22|    112|
|     22|    101|
|     33|    101|
|     44|    102|
+-------+-------+


df.toPandas().groupby('user_id')[
        'team_id'].apply(list).to_dict()


Result: 
{11: [101, 102], 22: [111, 112, 101], 33: [101], 44: [102]}

在pyspark中尋找有效的方法來創建上述multidict。

Answer 1

您可以將team_id列聚合為列表，然后使用collectAsMap方法將rdd收集為字典：

mport pyspark.sql.functions as F

df.groupBy("user_id").agg(F.collect_list("team_id")).rdd.collectAsMap()
# {33: [101], 11: [101, 102], 44: [102], 22: [111, 112, 101]}

從pyspark數據框創建multidict

問題描述

1 個解決方案

解決方案1
1 已采納 2017-11-09 18:46:30

從pyspark數據框創建multidict

問題描述

1 個解決方案

解決方案1 1 已采納 2017-11-09 18:46:30

解決方案1
1 已采納 2017-11-09 18:46:30