[英]Flume Agent failure Handlling
我寫了將在生產服務器上全天候運行的flume代理。 但是有一段時間我觀察到,水槽靜默地掉了下來。
我需要一種機制,當發生這種情況時,該機制可以至少向客戶端/用戶發出警報。
任何建議來處理這種情況。
首先,我建議您最好查看日志以查看Flume崩潰的原因。 如果沒有任何內容,請查看是否可以將日志記錄級別更改為WARN
或INFO
,因為Flume不應該崩潰。 在我的盒子上已經運行了很長時間。
萬一您想繼續創建該監視機制:afaik Flume不支持這種事情,但是一個簡單的bash腳本應該可以解決問題。 這是一個例子。 您必須自定義在Flume關閉時執行操作的命令。
#!/bin/bash
process_identification_str='flume-ng'
while "true"; do
ps=$(ps aux | grep "$process_identification_str" | grep -v 'grep')
if [ -z "$ps" ]; then
echo 'ALARM!'
fi
sleep 1
done
看到我發現的內容:“在Flume中進行監視仍在進行中。更改可能經常發生。幾個Flume組件向JMX平台MBean服務器報告指標。可以使用Jconsole查詢這些指標。”
似乎目前無法在本地監視此組件。
問候!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.