繁体   English   中英

如何在spark streaming中解析动态的json格式的kafka消息

[英]How to parse dynamic json formatted kafka message in spark streaming

我正在实施一个 Spark Structured Streaming 作业,我正在使用来自 Kafka 的 JSON 格式的消息。

由于 json 数据是动态的,我没有在from_json function 中使用的架构信息来加载 json 数据以激发 dataframe

下面是我用来从 kafka 主题读取数据的代码

df = spark_session.readStream.format("kafka") \
      .option("kafka.bootstrap.servers", "...") \
      .option("subscribe", "..") \
      .option("startingTimestamp", "...").load()

我如何使用下面的from_json function 或者是否有任何其他功能可用于将 json 数据加载到 dataframe 没有预定义模式

df = df.select(from_json(col("value").cast("string")).alias("parsed_value"))

您将使用get_json_object(column, '<json path>')来解析类型为 json 列的字符串

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM