簡體 English 中英

使用Apache Spark / Apache Flink進行擴展

[英]Scaling with Apache Spark/Apache Flink

原文 2017-09-20 15:42:58 4 1 apache-spark/ apache-kafka/ apache-flink

我計划一個從Apache Kafka讀取的應用程序，然后（可能很耗時）將數據保存到數據庫中。

我的情況是消息，而不是流，但是為了可伸縮性，我正在考慮將其插入Spark或Flink，但無法掌握它們的擴展程度：當我的應用程序作為Spark / Flink的一部分時，應該從Kafka中讀取一些數據嗎？然后退出還是繼續閱讀？

然后，Spark / Flink將如何決定它們必須生成更多應用程序實例以提高吞吐量？

謝謝！

1 個解決方案

在Apache Flink中，您可以通過設置env.setParallelism(#parallelism)來使所有運算符與#parallelism並行實例一起運行來定義操作的並行性，甚至可以為每個運算符定義/覆蓋它，例如dataStream.map(...).setParallelism(#parallelism); 。

有關更多信息，請檢查Flink docs https://ci.apache.org/projects/flink/flink-docs-release-1.3/dev/parallel.html 。

關於從Kafa讀取內容，您可以定義並行接收器（同一組），以使用Kafka主題分區按比例放大/縮小： env.addSource(kafkaConsumer).setParallelism(#topicPartitions)

查看Kafka文檔以獲取有關Kafka主題，分區和使用者組的更多信息： https : //kafka.apache.org/documentation/ 。

請注意，如果您未在Flink程序中指定並行度級別，而是將其部署在本地Flink群集上。 將使用配置文件flinkDir/conf/flink-conf.yaml的parallelism.default參數的值。 除非您通過-p指定它，如./bin/flink run .... -p #parallelism 。 檢查Flink cli選項。

Apache Spark和Flink的能耗如何測量

[英]How to measure energy consumption of Apache Spark and Flink

Apache Spark和Apache Flink中的“流媒體”意味着什么？

[英]What does “streaming” mean in Apache Spark and Apache Flink?

Apache Spark 結構化流與 Apache Flink：有什么區別？

[英]Apache Spark Structured Streaming vs Apache Flink: what is the difference?

Apache Spark連接操作的弱擴展性差

[英]Poor weak scaling of Apache Spark join operation

分布式處理 - Apache Spark、Flink、Samza、Siddhi、Hazelcast Jet

[英]Distributed processing - Apache Spark, Flink, Samza, Siddhi, Hazelcast Jet

使用Apache Spark或Flink的基於S3的流解決方案

[英]S3 based streaming solution using apache spark or flink

Apache Beam 相比 Spark/Flink 進行批處理有什么好處？

[英]What are the benefits of Apache Beam over Spark/Flink for batch processing?

Apache Spark Auto Scaling 屬性 - 動態添加工作器

[英]Apache Spark Auto Scaling properties - Add Worker on the Fly

Apache Flink和Apache Spark作為大規模機器學習的平台？

[英]Apache Flink vs Apache Spark as platforms for large-scale machine learning?

Apache Spark 上的 Apache Hive

[英]Apache Hive on Apache Spark

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Apache Spark和Flink的能耗如何測量 Apache Spark和Apache Flink中的“流媒體”意味着什么？ Apache Spark 結構化流與 Apache Flink：有什么區別？ Apache Spark連接操作的弱擴展性差分布式處理 - Apache Spark、Flink、Samza、Siddhi、Hazelcast Jet 使用Apache Spark或Flink的基於S3的流解決方案 Apache Beam 相比 Spark/Flink 進行批處理有什么好處？ Apache Spark Auto Scaling 屬性 - 動態添加工作器 Apache Flink和Apache Spark作為大規模機器學習的平台？ Apache Spark 上的 Apache Hive

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM