[英]Is there a way to read from specific offset in a Kafka stream from a Spark streaming job?
[英]Spark streaming job stuck if some Kafka nodes time offset is not synchronized
我們有一個火花流式傳輸作業,它從Gnip API讀取並將推文發送到Kafka集群。
使用Cloudera Manager安裝Kafka群集。
有時,cloudera管理器會為某些Kafka節點顯示錯誤的運行狀況消息。 不良健康消息與NTP服務有關。 某些節點突然與NTP服務器不同步。
一旦發生這種情況,Spark流媒體作業就會停滯不前,很多作業都會在沒有處理的情況下排隊等待很長時間。
為什么Kafka節點與NTP服務器的同步會影響火花流作業中的Kafka生產者?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.