Spark Dataframe 在一行中結合 json 鍵值 - Scala 或 ZA7F5F35426B927411FC9231B563821

Question

我正在查詢 spark sql ，如下所示，並嘗試將列合並為一行：

interalexternalid = spark.sql("""Select InternalId, ExternalId from datatable limit 4""")

jsonDf = interalexternalid.select(to_json(struct([interalexternalid[x] for x in interalexternalid.columns])).alias("body"))
display(jsonDf)

我得到這樣的數據：

"body"
{"InternalId":480941,"ExternalId":"a020H00001Tt7NrQAJ"}
{"InternalId":480942,"ExternalId":"a020H00001Tt7NsQAJ"}
{"InternalId":480556,"ExternalId":"a020H00001TdAEVQA3"}
{"InternalId":480557,"ExternalId":"a020H00001TdAEWQA3"}

我的目標是在“正文”列中獲取如下數據

“身體”：

 [{"InternalId": 480941}, {"ExternalId": "a020H00001Tt7NrQAJ"}]
 [{"InternalId": 480942}, {"ExternalId": "a020H00001Tt7NsQAJ"}]
 [{"InternalId": 480556}, {"ExternalId": "a020H00001TdAEVQA3"}]
 [{"InternalId": 480557}, {"ExternalId": "a020H00001TdAEWQA3"}]

如何做到這一點。 我在上述情況下使用 python 。 但 python 和 scala 解決方案都會有所幫助。 謝謝

Answer 1

而不是struct使用array方法，因為您需要body作為數組。 並使用create_map從列名到值創建 Map：

from pyspark.sql.functions import array, lit, col, to_json, create_map

df.select(to_json(
    array(*[create_map(lit(c), col(c)) for c in df.columns])
).alias("body")).show(truncate=False)

+-------------------------------------------------------------+
|body                                                         |
+-------------------------------------------------------------+
|[{"InternalId":"480941"},{"ExternalId":"a020H00001Tt7NrQAJ"}]|
|[{"InternalId":"480942"},{"ExternalId":"a020H00001Tt7NsQAJ"}]|
|[{"InternalId":"480556"},{"ExternalId":"a020H00001TdAEVQA3"}]|
|[{"InternalId":"480557"},{"ExternalId":"a020H00001TdAEWQA3"}]|
+-------------------------------------------------------------+

Spark Dataframe 在一行中結合 json 鍵值 - Scala 或 ZA7F5F35426B927411FC9231B563821

問題描述

1 個解決方案

解決方案1
2 已采納 2020-04-28 01:18:48

Spark Dataframe 在一行中結合 json 鍵值 - Scala 或 ZA7F5F35426B927411FC9231B563821

問題描述

1 個解決方案

解決方案1 2 已采納 2020-04-28 01:18:48

解決方案1
2 已采納 2020-04-28 01:18:48