簡體   English   中英

來自 JDBC 源的 Spark 結構化流

[英]Spark structured streaming from JDBC source

有人可以讓我知道是否可以從 JDBC 源進行 Spark 結構化流式傳輸? 例如 SQL DB 或任何 RDBMS。

我看過一些關於 SO 的類似問題,例如

Spark streaming jdbc 在數據到來時讀取流 - 數據源 jdbc 不支持流式讀取

jdbc 源和 spark 結構化流

但是,我想知道它是否在 Apache Spark 上得到官方支持?

如果有任何有用的示例代碼。

謝謝

不,Spark Structured Streaming 中沒有這樣的內置支持 主要原因是大多數數據庫沒有提供統一的接口來獲取更改。

可以使用歸檔日志、預寫日志等從某些數據庫中獲取更改。但它是特定於數據庫的。 對於許多數據庫來說,流行的選擇是Debezium ,它可以讀取此類日志並將更改列表推送到 Kafka 或類似的東西中,Spark 可以從中使用它。

我現在正在一個項目中使用來自 ORACLE 的 CDC Shareplex 並寫入 KAFKA,然后使用 Spark Structured Streaming 與 KAFKA 集成和 MERGE 在 HDFS 上的增量格式上進行架構。

也就是說,如果不使用 Debezium,那就是這樣做的方法。 您可以使用基表或物化視圖的更改日志來提供 CDC。

所以直接 JDBC 是不可能的。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM