簡體   English   中英

登錄spark結構化流媒體

[英]Logging in spark structured streaming

我能夠開發一個從kafka讀取的管道進行一些轉換並將輸出寫入kafka接收器以及parque接收器。 我想添加有效的日志記錄來記錄轉換的中間結果,就像在常規流應用程序中一樣。

我看到的一個選項是通過登錄queryExecutionstreams

df.queryExecution.analyzed.numberedTreeString 

要么

logger.info("Query progress"+ query.lastProgress)
logger.info("Query status"+ query.status)

但是,這似乎沒有辦法查看運行流的業務特定消息。

有沒有辦法如何添加更多的日志信息,如它正在處理的數據?

我發現了一些跟蹤相同的選項。基本上我們可以使用df.writeStream.format(“parquet”)命名我們的流式查詢.queryName(“table1”)

查詢名稱table1將打印在Spark作業選項卡中,針對Spark UI中的已完成作業列表,您可以從中跟蹤每個流式查詢的狀態

2)在結構化流媒體中使用ProgressReporter API來收集更多統計信息

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM