[英]How to iterate over a pyspark dataframe and create a dictionary out of it
我有以下pyspark
数据框:
import pandas as pd
foo = pd.DataFrame({'id': ['a','a','a','a', 'b','b','b','b'],
'time': [1,2,3,4,1,2,3,4],
'col': ['1','2','1','2','3','2','3','2']})
foo_df = spark.createDataFrame(foo)
foo_df.show()
+---+----+---+
| id|time|col|
+---+----+---+
| a| 1| 1|
| a| 2| 2|
| a| 3| 1|
| a| 4| 2|
| b| 1| 3|
| b| 2| 2|
| b| 3| 3|
| b| 4| 2|
+---+----+---+
我想遍历所有id
并获得一个 python 字典,该字典将以id
作为keys
,以col
作为values
,如下所示:
foo_dict = {'a': ['1','2','1','2'], 'b': ['3','2','3','2']})
我在foo
中总共有10k
id
和大约10m
行,所以我正在寻找一个有效的实现。
有任何想法吗 ?
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.