登錄spark結構化流媒體

Question

我能夠開發一個從kafka讀取的管道進行一些轉換並將輸出寫入kafka接收器以及parque接收器。 我想添加有效的日志記錄來記錄轉換的中間結果，就像在常規流應用程序中一樣。

我看到的一個選項是通過登錄queryExecutionstreams

df.queryExecution.analyzed.numberedTreeString

要么

logger.info("Query progress"+ query.lastProgress)
logger.info("Query status"+ query.status)

但是，這似乎沒有辦法查看運行流的業務特定消息。

有沒有辦法如何添加更多的日志信息，如它正在處理的數據？

Answer 1

我發現了一些跟蹤相同的選項。基本上我們可以使用df.writeStream.format（“parquet”）命名我們的流式查詢.queryName（“table1”）

查詢名稱table1將打印在Spark作業選項卡中，針對Spark UI中的已完成作業列表，您可以從中跟蹤每個流式查詢的狀態

2）在結構化流媒體中使用ProgressReporter API來收集更多統計信息