繁体   English   中英

从 JSON 中提取少量字段并在 Pyspark Dataframe 中以地图的形式返回其余部分

[英]Extract few fields from JSON and return rest as a map in Pyspark Dataframe

我正在读取 pyspark 数据帧中的流数据,该数据包含每个数据/请求中都存在的几个字段。 我想精确这些字段并为其创建一个数据框列,并希望将其余字段作为地图存储在另一个数据框列中。 我无法实现

如果有人可以帮忙吗?

例子:

样本值:

{"event1":"Value","event2":"Value","event3":"Value","event4":"Value","event5":"Value","event6":"Value"}
{"event1":"Value","event2":"Value","event3":"Value","data1":"Value","data2":"Value","data3":"Value"}

现在假设每一行都存在 event1,event2,event3,所以我想将其提取并作为单独的数据框列,其余字段作为键值对的映射,这将是另一个数据框。

您需要为您的数据框创建一个模式并使用from_json将其转换为 Spark 中的StructType 然后,您可以选择您的特定事件并为其他事件创建另一个数据框。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM