如何使用Java中的結構化流來從Kafka反序列化記錄？

Question

我使用Spark 2.1 。

我試圖使用Spark Structured Streaming從Kafka讀取記錄，反序列化它們並在之后應用聚合。

我有以下代碼：

SparkSession spark = SparkSession
        .builder()
        .appName("Statistics")
        .getOrCreate();

Dataset<Row> df = spark
        .readStream()
        .format("kafka")
        .option("kafka.bootstrap.servers", kafkaUri)
        .option("subscribe", "Statistics")
        .option("startingOffsets", "earliest")
        .load();

df.selectExpr("CAST(value AS STRING)")

我想要的是將value字段反序列化為我的對象而不是像String 。

我有一個自定義反序列化器。

public StatisticsRecord deserialize(String s, byte[] bytes)

我怎么能用Java做到這一點？

我找到的唯一相關鏈接是這個https://databricks.com/blog/2017/04/26/processing-data-in-apache-kafka-with-structured-streaming-in-apache-spark-2-2 .html ，但這是針對Scala的。

Answer 1

定義JSON消息的模式。

StructType schema = DataTypes.createStructType(new StructField[] { 
                DataTypes.createStructField("Id", DataTypes.IntegerType, false),
                DataTypes.createStructField("Name", DataTypes.StringType, false),
                DataTypes.createStructField("DOB", DataTypes.DateType, false) });

現在閱讀下面的消息。 MessageData是JSON消息的JavaBean。

Dataset<MessageData> df = spark
            .readStream()
            .format("kafka")
            .option("kafka.bootstrap.servers", kafkaUri)
            .option("subscribe", "Statistics")
            .option("startingOffsets", "earliest")
            .load()
            .selectExpr("CAST(value AS STRING) as message")
            .select(functions.from_json(functions.col("message"),schema).as("json"))
            .select("json.*")
            .as(Encoders.bean(MessageData.class));

Answer 2

如果您的數據庫中有自定義反序列化器，請在load后從Kafka獲取的字節數上使用它。

df.select("value")

該行為您提供只有一個列value Dataset<Row> 。

我只使用Scala的Spark API，所以我在Scala中執行以下操作來處理“反序列化”案例：

import org.apache.spark.sql.Encoders
implicit val statisticsRecordEncoder = Encoders.product[StatisticsRecord]
val myDeserializerUDF = udf { bytes => deserialize("hello", bytes) }
df.select(myDeserializerUDF($"value") as "value_des")

這應該會給你你想要的......在Scala中。 將它轉換為Java是你的家庭練習:)

請注意，您的自定義對象必須具有可用的編碼器，否則Spark SQL將拒絕將其對象放入數據集中。

如何使用Java中的結構化流來從Kafka反序列化記錄？

問題描述

2 個解決方案

解決方案1
4 2017-05-12 12:30:44

解決方案2
2 2017-05-12 14:44:31

如何使用Java中的結構化流來從Kafka反序列化記錄？

問題描述

2 個解決方案

解決方案1 4 2017-05-12 12:30:44

解決方案2 2 2017-05-12 14:44:31

解決方案1
4 2017-05-12 12:30:44

解決方案2
2 2017-05-12 14:44:31