PySpark - 從字典中創建一個 Dataframe，其中包含每個鍵的值列表

Question

我有這種類型的字典：

{'xy': [['value1', 'value2'], ['value3', 'value4']],
 'yx': [['value5', 'value6'], ['value7', 'value8']]}

我想創建一個 dataFrame pyspark ，其中我有 3 列和 2 行。 dict 的每個鍵都有一行。 例如，第一行：

First column: xy
Second column: ["value1", "value2"]
Third column: ["value3", "value4"]

有什么更好的方法來做到這一點？ 我只能創建 2 列，其中有一個鍵，並且只有一列包含所有列表，但這不是我想要的結果。

Answer 1

這是您的數據字典：

data = {
    'xy': [['value1', 'value2'], ['value3', 'value4']],
    'yx': [['value5', 'value6'], ['value7', 'value8']]
}

您可以只使用 for 循環：

df = spark.createDataFrame(
    [[k] + v for k, v in data.items()],
    schema=['col1', 'col2', 'col3']
)

df.show(10, False)
+----+----------------+----------------+
|col1|col2            |col3            |
+----+----------------+----------------+
|xy  |[value1, value2]|[value3, value4]|
|yx  |[value5, value6]|[value7, value8]|
+----+----------------+----------------+

PySpark - 從字典中創建一個 Dataframe，其中包含每個鍵的值列表

問題描述

1 個解決方案

解決方案1
0 2022-09-23 09:32:53

PySpark - 從字典中創建一個 Dataframe，其中包含每個鍵的值列表

問題描述

1 個解決方案

解決方案1 0 2022-09-23 09:32:53

解決方案1
0 2022-09-23 09:32:53