簡體   English   中英

如果核心數量多於 Kafka 分區數量,Spark 結構化流式傳輸是否會受益於動態分配?

[英]Will Spark structured streaming benefit from dynamic allocation if number of cores more than number of Kafka partitions?

假設我們有一個從 X 分區主題讀取的應用程序,對數據進行一些過濾,然后使用結構化流查詢將其保存到存儲中(沒有復雜的混洗邏輯,只是一些簡單的轉換)。 該應用程序是否會受益於動態分配功能,即在數據激增的情況下添加超過 X 個單核執行程序?

我問這個,因為我主要使用 DStreams,其中有一個眾所周知的建議,即每個分區有一個核心,這樣每個執行器核心都將忙於處理來自一個分區的數據,並且添加更多執行器通常不會提供太多擴展好處。 我的直覺告訴我不會,因為數據最終仍會出現在同一個工人身上,但我可能會遺漏一些東西。

你在談論紗線的動態分配嗎? 但是您可以在 spark 結構化流中使用 minPartitions 設置。 參考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM