繁体   English   中英

如何遍历 pyspark 数据帧并从中创建字典

[英]How to iterate over a pyspark dataframe and create a dictionary out of it

我有以下pyspark数据框:

import pandas as pd
foo = pd.DataFrame({'id': ['a','a','a','a', 'b','b','b','b'],
                    'time': [1,2,3,4,1,2,3,4],
                    'col': ['1','2','1','2','3','2','3','2']})

foo_df = spark.createDataFrame(foo)
foo_df.show()

+---+----+---+
| id|time|col|
+---+----+---+
|  a|   1|  1|
|  a|   2|  2|
|  a|   3|  1|
|  a|   4|  2|
|  b|   1|  3|
|  b|   2|  2|
|  b|   3|  3|
|  b|   4|  2|
+---+----+---+

我想遍历所有id并获得一个 python 字典,该字典将以id作为keys ,以col作为values ,如下所示:

foo_dict = {'a': ['1','2','1','2'], 'b': ['3','2','3','2']})

我在foo中总共有10k id和大约10m行,所以我正在寻找一个有效的实现。

有任何想法吗 ?

这是一个熊猫数据框。 您应该检查文档 数据框对象具有内置方法来帮助迭代、切片和切块您的数据。 还有这个有趣的工具可以帮助您可视化正在发生的事情。

pandas 有一个现成的方法可以将数据帧转换为字典。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM