如何使用 Databricks 的 Apache Spark 從 SQL 表中獲取 stream 數據

Question

我正在嘗試使用以下命令從 sql 表中獲取 stream：

my_sales =  spark.read.jdbc(jdbcUrl, dbo.table)

static = spark.read.format("csv").load(my_sales)
dataSchema = static.schema

我正在嘗試使用以下內容從表中讀取數據：

rawdf = (spark.readStream 
      .format("csv") \
      .option("maxFilesPerTrigger", 1) \
      .schema(dataSchema) \
      .csv(dataPath)
           )

我正在使用以下內容將數據寫入以下位置

saveloc = '/mnt/raw/streaminglocation/'


streamingQuery = (
  rawdf
  .writeStream
  .format("csv")
  .outputMode("append")
  .option("checkpointLocation", f"{saveloc}/_checkpoints")
  .option("mergeSchema", "true")
  .start(saveloc)
)

然而這失敗了。

是否可以從 SQL 表中獲取 stream？

Answer 1

這是不可能的。 JDBC 源不支持 Spark 結構化流。

也不相信前期編碼。

將 CDC 與 Kafka 一起使用，或將物化可更新視圖與 KAFKA 或 Debezium 一起使用。

如何使用 Databricks 的 Apache Spark 從 SQL 表中獲取 stream 數據

問題描述

1 個解決方案

解決方案1
1 已采納 2022-02-26 10:31:54

如何使用 Databricks 的 Apache Spark 從 SQL 表中獲取 stream 數據

問題描述

1 個解決方案

解決方案1 1 已采納 2022-02-26 10:31:54

解決方案1
1 已采納 2022-02-26 10:31:54