繁体   English   中英

构建 Spark 结构化流管道的最佳方法是什么?

[英]What is the best way to structure a spark structured streaming pipeline?

我正在将数据从我的 postgres 数据库移动到 kafka,并在中间使用 spark 进行一些转换。 我有 50 张桌子,每张桌子都有与其他桌子完全不同的转换。 所以,我想知道如何构建我的 spark 结构化流代码的最佳方式。 我认为有三个选择:

  1. 要将这 50 个表的所有读写逻辑放在一个 object 中,并且只调用这个 object。

  2. 为每个表创建 50 个不同的对象,并在新的 object 中创建一个调用 50 个对象中的每一个的主方法,然后调用 spark.streams.awaitAnyTermination()

  3. 通过 spark submit 单独提交这 50 个对象中的每一个

如果存在其他更好的选择,请与我交谈。

谢谢

根据您的方法 1 创建单个 object 看起来不太好。 这将难以理解和维护。

在第 2 步和第 3 步之间,我仍然更喜欢第 3 步。 维护单独的作业会有点麻烦(管理部署和构建公共代码),但如果做得好,它将给我们更多的灵活性。 如果需要,我们可以轻松地取消部署单个表。 此外,任何后续部署或更改都意味着仅部署相关的表流。 其他现有的表管道将继续工作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM