轉換不是1：1而是1：多時如何創建Spark DataSet

Question

我正在編寫一個結構化的流式 Spark 應用程序，我正在從 Kafka 隊列中讀取數據並處理收到的消息。 我想要的最終結果是一個DataSet[MyMessage] （其中MyMessage是一個自定義對象），我想將其排隊到另一個 Kafka 主題。 問題是，來自消費者 Kafka 隊列的每條輸入消息都可以產生多個MyMessage對象，因此轉換不是 1:1、1:Many。

所以我在做

val messagesDataSet: DataSet[List[MyMessage]] = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", "server1")
      .option("subscribe", "topic1")
      .option("failOnDataLoss", false)
      .option("startingOffsets", "offset1")
      .load()
      .select($"value")
      .mapPartitions{r => createMessages(r)}

val createMessages(row: Iterator[Row]): List[MyMessage] = {
   // ...
}

顯然， messagesDataSet是一個DataSet[List[MyMessage]] 。 有沒有辦法只得到一個DataSet[MyMessage] ？

或者有沒有辦法獲取DataSet[List[MyMessage]]然后將每個MyMessage對象寫入另一個 Kafka 主題？ （畢竟這是我的最終目標）

Answer 1

您可以使用 mapPartitions 創建多個值（因此它的工作方式類似於 flatMap），但您必須返回 Iterator：

  def createMessages(row: Iterator[Row]): Iterator[MyMessage] = {
    row.map(/*...*/) //you need too return iterator here
  }

Answer 2

嘗試

messagesDataSet.flatMap(identity)

轉換不是1：1而是1：多時如何創建Spark DataSet

問題描述

2 個解決方案

解決方案1
1 2020-09-07 08:59:05

解決方案2
1 已采納 2020-09-07 18:22:12

轉換不是1：1而是1：多時如何創建Spark DataSet

問題描述

2 個解決方案

解決方案1 1 2020-09-07 08:59:05

解決方案2 1 已采納 2020-09-07 18:22:12

解決方案1
1 2020-09-07 08:59:05

解決方案2
1 已采納 2020-09-07 18:22:12