如何遍历 pyspark 数据帧并从中创建字典

Question

我有以下pyspark数据框：

import pandas as pd
foo = pd.DataFrame({'id': ['a','a','a','a', 'b','b','b','b'],
                    'time': [1,2,3,4,1,2,3,4],
                    'col': ['1','2','1','2','3','2','3','2']})

foo_df = spark.createDataFrame(foo)
foo_df.show()

+---+----+---+
| id|time|col|
+---+----+---+
|  a|   1|  1|
|  a|   2|  2|
|  a|   3|  1|
|  a|   4|  2|
|  b|   1|  3|
|  b|   2|  2|
|  b|   3|  3|
|  b|   4|  2|
+---+----+---+

我想遍历所有id并获得一个 python 字典，该字典将以id作为keys ，以col作为values ，如下所示：

foo_dict = {'a': ['1','2','1','2'], 'b': ['3','2','3','2']})

我在foo中总共有10k id和大约10m行，所以我正在寻找一个有效的实现。

有任何想法吗？

Answer 1

这是一个熊猫数据框。 您应该检查文档。 数据框对象具有内置方法来帮助迭代、切片和切块您的数据。 还有这个有趣的工具可以帮助您可视化正在发生的事情。

pandas 有一个现成的方法可以将数据帧转换为字典。

如何遍历 pyspark 数据帧并从中创建字典

问题描述

1 个解决方案

解决方案1
0 2022-05-16 09:21:17

如何遍历 pyspark 数据帧并从中创建字典

问题描述

1 个解决方案

解决方案1 0 2022-05-16 09:21:17

解决方案1
0 2022-05-16 09:21:17