繁体 English 中英

使用结构化流处理来自 kafka 的 json 数据

[英]Processing json data from kafka using structured streaming

原文 2020-06-26 14:47:16 2 3 json/ scala/ apache-kafka/ schema/ spark-structured-streaming

我想将来自 Kafka 的传入 JSON 数据转换为 dataframe。

我正在使用带有Scala 2.12的结构化流

大多数人添加硬编码模式，但如果 json 可以有额外的字段，则需要每次更改代码库，这很乏味。

一种方法是将其写入文件并推断它，但我宁愿避免这样做。

有没有其他方法可以解决这个问题？

编辑：找到一种方法将 json 字符串转换为 dataframe 但无法从 stream 源中提取它，可以提取它吗？

3 个解决方案

一种方法是将模式本身存储在消息头中（而不是键或值）。
虽然这会增加消息大小，但解析 JSON 值将很容易，而不需要任何外部资源，如文件或模式注册表。
新消息可以有新的模式，同时旧消息仍然可以使用它们的旧模式本身来处理，因为模式在消息本身之内。
或者，您可以版本化模式并在消息头中包含每个模式的id （或）键或值中的魔术字节，并从那里推断模式。
这种方法之后是Confluent Schema 注册表。 它允许您通过相同模式的不同版本基本上 go 并查看您的模式如何随着时间的推移而演变。

将数据读取为字符串，然后将其转换为 map[string,String]，这样您就可以在不知道其架构的情况下处理任何 json

基于 JavaTechnical 的回答，最好的方法是使用模式注册表和 avro 数据而不是 json，没有办法硬编码模式（目前）。

将您的架构名称和 ID 包含为 header 并使用它们从架构注册表中读取架构。

使用from_avro将该数据转换为 df！

结构化流如何动态解析kafka的json数据

[英]How structured streaming dynamically parses kafka's json data

如何使用 (Py)Spark Structured Streaming 定义带有时间戳的 JSON 记录的架构（来自 Kafka）？ - 显示 null 值

[英]How to define schema for JSON records with timestamp (from Kafka) using (Py)Spark Structured Streaming? - null values shown

从Kafka JSON编码问题读取Spark结构化流

[英]Spark structured streaming read from kafka json encoding issue

我怎样才能从 kafka 主题接收数据到我的流式结构化数据帧？

[英]How could i get receive the data from kafka topic to my Streaming Structured DataFrame?

使用 Spark Structured Streaming 读取带有架构的 Kafka Connect JSONConverter 消息

[英]Reading Kafka Connect JSONConverter messages with schema using Spark Structured Streaming

如何使用JSON响应从Wikipedia中读取结构化数据

[英]How to read structured data from Wikipedia using its JSON response

无法读取json文件：使用Java的Spark结构化流

[英]Not able to read json files: Spark Structured Streaming using java

Json 字符串应作为 Kafka 主题使用，在 Spark 结构化流中没有模式

[英]Json string should be consumed as Kafka topic without schema in spark structured streaming

为 Spark 结构化流解析 JSON

[英]Parse JSON for Spark Structured Streaming

如何使用Spark流将整个json从kafka主题保存到Cassandra表

[英]how to save entire json from kafka topic to Cassandra table, using Spark streaming

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 结构化流如何动态解析kafka的json数据如何使用 (Py)Spark Structured Streaming 定义带有时间戳的 JSON 记录的架构（来自 Kafka）？ - 显示 null 值从Kafka JSON编码问题读取Spark结构化流我怎样才能从 kafka 主题接收数据到我的流式结构化数据帧？使用 Spark Structured Streaming 读取带有架构的 Kafka Connect JSONConverter 消息如何使用JSON响应从Wikipedia中读取结构化数据无法读取json文件：使用Java的Spark结构化流 Json 字符串应作为 Kafka 主题使用，在 Spark 结构化流中没有模式为 Spark 结构化流解析 JSON 如何使用Spark流将整个json从kafka主题保存到Cassandra表

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM