[英]What is the best way to consume the same topic from many different kafka brokers with spark structured streaming?
[英]What is the best way to structure a spark structured streaming pipeline?
我正在将数据从我的 postgres 数据库移动到 kafka,并在中间使用 spark 进行一些转换。 我有 50 张桌子,每张桌子都有与其他桌子完全不同的转换。 所以,我想知道如何构建我的 spark 结构化流代码的最佳方式。 我认为有三个选择:
要将这 50 个表的所有读写逻辑放在一个 object 中,并且只调用这个 object。
为每个表创建 50 个不同的对象,并在新的 object 中创建一个调用 50 个对象中的每一个的主方法,然后调用 spark.streams.awaitAnyTermination()
通过 spark submit 单独提交这 50 个对象中的每一个
如果存在其他更好的选择,请与我交谈。
谢谢
根据您的方法 1 创建单个 object 看起来不太好。 这将难以理解和维护。
在第 2 步和第 3 步之间,我仍然更喜欢第 3 步。 维护单独的作业会有点麻烦(管理部署和构建公共代码),但如果做得好,它将给我们更多的灵活性。 如果需要,我们可以轻松地取消部署单个表。 此外,任何后续部署或更改都意味着仅部署相关的表流。 其他现有的表管道将继续工作。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.