簡體   English   中英

Spark Streaming Kafka

[英]Spark Streaming Kafka

我正在嘗試閱讀另一個團隊設置的Kafka主題。 該主題在多個分區之間保持平衡。 我的意思是每個新行都發送到一個單獨的主題。 一條消息是多行,因此該消息在兩個分區之間分配。

例如:
分區1:
“消息1:details1 details1”
“ message2:details2 details2”

分區2:
“ details1 details1”
“ details2 details2”

當我用createDirectStream(ssc, kafkaparams, fromoffsets, messagehandler)閱讀主題時,我按上面顯示的順序獲取了RDD。

我想做的是:

“消息1:details1 details1”
“ details1 details1”
“ message2:details2 details2”
“ details2 details2”

感謝您收到的任何幫助。

如果保證每個分區內的排序都使分區1中的元素x與分區2中的元素x相關,則可以基於分區號和每個分區迭代器(zipWithIndex)中的元素索引對RDD元素進行排序。

這將允許您跨分區“重新同步”

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM