簡體   English   中英

構建 Spark 結構化流管道的最佳方法是什么?

[英]What is the best way to structure a spark structured streaming pipeline?

我正在將數據從我的 postgres 數據庫移動到 kafka,並在中間使用 spark 進行一些轉換。 我有 50 張桌子,每張桌子都有與其他桌子完全不同的轉換。 所以,我想知道如何構建我的 spark 結構化流代碼的最佳方式。 我認為有三個選擇:

  1. 要將這 50 個表的所有讀寫邏輯放在一個 object 中,並且只調用這個 object。

  2. 為每個表創建 50 個不同的對象,並在新的 object 中創建一個調用 50 個對象中的每一個的主方法,然后調用 spark.streams.awaitAnyTermination()

  3. 通過 spark submit 單獨提交這 50 個對象中的每一個

如果存在其他更好的選擇,請與我交談。

謝謝

根據您的方法 1 創建單個 object 看起來不太好。 這將難以理解和維護。

在第 2 步和第 3 步之間,我仍然更喜歡第 3 步。 維護單獨的作業會有點麻煩(管理部署和構建公共代碼),但如果做得好,它將給我們更多的靈活性。 如果需要,我們可以輕松地取消部署單個表。 此外,任何后續部署或更改都意味着僅部署相關的表流。 其他現有的表管道將繼續工作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM