簡體 English 中英

如果核心數量多於 Kafka 分區數量，Spark 結構化流式傳輸是否會受益於動態分配？

[英]Will Spark structured streaming benefit from dynamic allocation if number of cores more than number of Kafka partitions?

原文 2023-01-19 11:36:11 4 1 apache-spark/ apache-kafka/ spark-streaming/ partitioning/ spark-structured-streaming

假設我們有一個從 X 分區主題讀取的應用程序，對數據進行一些過濾，然后使用結構化流查詢將其保存到存儲中（沒有復雜的混洗邏輯，只是一些簡單的轉換）。 該應用程序是否會受益於動態分配功能，即在數據激增的情況下添加超過 X 個單核執行程序？

我問這個，因為我主要使用 DStreams，其中有一個眾所周知的建議，即每個分區有一個核心，這樣每個執行器核心都將忙於處理來自一個分區的數據，並且添加更多執行器通常不會提供太多擴展好處。 我的直覺告訴我不會，因為數據最終仍會出現在同一個工人身上，但我可能會遺漏一些東西。

1 個解決方案

你在談論紗線的動態分配嗎？ 但是您可以在 spark 結構化流中使用 minPartitions 設置。 參考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

使用 Kafka 源的 Spark Structured Streaming，在查詢運行時更改主題分區的數量

[英]Spark Structured Streaming with Kafka source, change number of topic partitions while query is running

從 spark 中獲取錯誤：創建的動態分區數為 1041，超過 1000

[英]Getting error from spark : Number of dynamic partitions created is 1041, which is more than 1000

Kafka 消費者組和分區與 Spark 結構化流

[英]Kafka consumer group and partitions with Spark structured streaming

spark-streaming-kafka-0-10：如何限制Spark分區的數量

[英]spark-streaming-kafka-0-10: How to limit number of Spark partitions

Spark任務多於分區數

[英]Spark tasks one more than number of partitions

Spark 資源分配：內核數

[英]Spark Resource Allocation: Number of Cores

如何設置結構化流的分區數？

[英]How to set number of partitions for structured streaming?

閱讀更多Kafka主題，而不是CPU核心數

[英]Read more Kafka topics than number of CPU cores

Spark - 結構化流 Kafka（動態反序列化）

[英]Spark - Structured Streaming Kafka (dynamic deserialize)

解釋 Spark Structured Streaming executor 和 Kafka partitions 之間的映射

[英]Explain mapping between Spark Structured Streaming executors and Kafka partitions

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用 Kafka 源的 Spark Structured Streaming，在查詢運行時更改主題分區的數量從 spark 中獲取錯誤：創建的動態分區數為 1041，超過 1000 Kafka 消費者組和分區與 Spark 結構化流 spark-streaming-kafka-0-10：如何限制Spark分區的數量 Spark任務多於分區數 Spark 資源分配：內核數如何設置結構化流的分區數？閱讀更多Kafka主題，而不是CPU核心數 Spark - 結構化流 Kafka（動態反序列化）解釋 Spark Structured Streaming executor 和 Kafka partitions 之間的映射

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM