[英]Spark continuous processing mode does not read all kafka topic partition
我正在嘗試結構化流中的Spark的連續處理模式,我正在閱讀帶有2個分區的Kafka主題,而Spark應用程序只有一個帶有一個核心的執行程序。
該應用程序是一個簡單的應用程序,它只是從第一個主題讀取並在第二個主題上發布。 問題是我的控制台消費者從第二個主題中讀取它只看到來自第一個主題的一個分區的消息。 這意味着我的Spark應用程序只讀取來自該主題的一個分區的消息。
如何從主題的兩個分區中讀取我的Spark應用程序?
注意
對於那些可能與我有同樣問題的人,我問這個問題
我在警告部分的Spark Structured Streaming文檔中找到了我的問題的答案
基本上,在連續處理模式中,spark啟動從主題的一個分區讀取的長時間運行的任務,因此每個核心只能運行一個任務,spark應用程序需要具有與其讀取的kafka主題分區一樣多的核心。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.