繁体 English 中英

构建 Spark 结构化流管道的最佳方法是什么？

[英]What is the best way to structure a spark structured streaming pipeline?

原文 2020-08-08 04:52:37 3 1 apache-spark/ spark-streaming/ spark-structured-streaming/ spark-streaming-kafka

我正在将数据从我的 postgres 数据库移动到 kafka，并在中间使用 spark 进行一些转换。 我有 50 张桌子，每张桌子都有与其他桌子完全不同的转换。 所以，我想知道如何构建我的 spark 结构化流代码的最佳方式。 我认为有三个选择：

要将这 50 个表的所有读写逻辑放在一个 object 中，并且只调用这个 object。
为每个表创建 50 个不同的对象，并在新的 object 中创建一个调用 50 个对象中的每一个的主方法，然后调用 spark.streams.awaitAnyTermination()
通过 spark submit 单独提交这 50 个对象中的每一个

如果存在其他更好的选择，请与我交谈。

谢谢

1 个解决方案

根据您的方法 1 创建单个 object 看起来不太好。 这将难以理解和维护。

在第 2 步和第 3 步之间，我仍然更喜欢第 3 步。 维护单独的作业会有点麻烦（管理部署和构建公共代码），但如果做得好，它将给我们更多的灵活性。 如果需要，我们可以轻松地取消部署单个表。 此外，任何后续部署或更改都意味着仅部署相关的表流。 其他现有的表管道将继续工作。

使用 Spark 结构化流从许多不同的 kafka 代理中消费相同主题的最佳方式是什么？

[英]What is the best way to consume the same topic from many different kafka brokers with spark structured streaming?

Spark 结构化流式最佳 VM

[英]Spark structured streaming best VMs

Spark 结构化流中的管道使用 foreachBatch

[英]Pipeline in Spark Structured Streaming using foreachBatch

重新启动火花流应用程序的最佳方法是什么？

[英]What is the best way to restart spark streaming application?

有没有办法动态停止 Spark Structured Streaming？

[英]Is there a way to dynamically stop Spark Structured Streaming?

Spark Structured Streaming和DStreams有什么区别？

[英]What is the difference between Spark Structured Streaming and DStreams?

这些指标对 Spark Structured Streaming 意味着什么？

[英]What do these metrics mean for Spark Structured Streaming?

Spark Structured Streaming 中 ForeachWriter 的用途是什么？

[英]What is the purpose of ForeachWriter in Spark Structured Streaming?

Spark结构流中的LocalTableScan有什么用？

[英]What is LocalTableScan in Spark Structure Streaming for?

使用 Scala 在 Spark 流应用程序中编写优化 UDF 的最佳方法是什么？

[英]What is the best way to write Optimized UDF in spark streaming application with Scala?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用 Spark 结构化流从许多不同的 kafka 代理中消费相同主题的最佳方式是什么？ Spark 结构化流式最佳 VM Spark 结构化流中的管道使用 foreachBatch 重新启动火花流应用程序的最佳方法是什么？有没有办法动态停止 Spark Structured Streaming？ Spark Structured Streaming和DStreams有什么区别？这些指标对 Spark Structured Streaming 意味着什么？ Spark Structured Streaming 中 ForeachWriter 的用途是什么？ Spark结构流中的LocalTableScan有什么用？使用 Scala 在 Spark 流应用程序中编写优化 UDF 的最佳方法是什么？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM