[英]Flume Agent failure Handlling
我写了将在生产服务器上全天候运行的flume代理。 但是有一段时间我观察到,水槽静默地掉了下来。
我需要一种机制,当发生这种情况时,该机制可以至少向客户端/用户发出警报。
任何建议来处理这种情况。
首先,我建议您最好查看日志以查看Flume崩溃的原因。 如果没有任何内容,请查看是否可以将日志记录级别更改为WARN
或INFO
,因为Flume不应该崩溃。 在我的盒子上已经运行了很长时间。
万一您想继续创建该监视机制:afaik Flume不支持这种事情,但是一个简单的bash脚本应该可以解决问题。 这是一个例子。 您必须自定义在Flume关闭时执行操作的命令。
#!/bin/bash
process_identification_str='flume-ng'
while "true"; do
ps=$(ps aux | grep "$process_identification_str" | grep -v 'grep')
if [ -z "$ps" ]; then
echo 'ALARM!'
fi
sleep 1
done
看到我发现的内容:“在Flume中进行监视仍在进行中。更改可能经常发生。几个Flume组件向JMX平台MBean服务器报告指标。可以使用Jconsole查询这些指标。”
似乎目前无法在本地监视此组件。
问候!
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.