我有一些由 munin 监控的服务器,并且相当频繁地,一组单元中的一个在读取数据时出现瞬时故障。这给了我两封电子邮件,一封告诉我所有的值都是未知的,第二封在五分钟后让我知道一切都很好。
据我所知, munin 正在按照这里的设计运行,但我想知道是否有任何方法可以延迟发送一个更新周期的初始“未知”警报,因此不会报告瞬态未知数?我目前的所有设置都是训练我忽略警告邮件。
如果做不到这一点,有没有办法完全禁用发送“未知”警报及其相应的恢复警报?
我有一些由 munin 监控的服务器,并且相当频繁地,一组单元中的一个在读取数据时出现瞬时故障。这给了我两封电子邮件,一封告诉我所有的值都是未知的,第二封在五分钟后让我知道一切都很好。
据我所知, munin 正在按照这里的设计运行,但我想知道是否有任何方法可以延迟发送一个更新周期的初始“未知”警报,因此不会报告瞬态未知数?我目前的所有设置都是训练我忽略警告邮件。
如果做不到这一点,有没有办法完全禁用发送“未知”警报及其相应的恢复警报?
我并没有真正使用 Munin,但我看到
unknown_limit
可以为项目/插件设置一个设置,该设置定义在将值设置为“未知”之前应该发生多少连续不成功的读数。基于 Munin::LimitsOld 模块,它默认为 3,我认为你应该尝试设置或增加这个数字。
我在 Munin 1.4.5 上检查过这个。
我通过让 munin 通知来实现这一点,不是直接通知最终用户,而是通过 NSCA 通知 NAGIOS,并让 NAGIOS 处理通知。这意味着我可以使用 NAGIOS(更复杂)控制通知延迟、频率、升级等。是的,NAGIOS 仅作为通知引擎就相当重量级,但您也可以将其用于定性(而不是定量)监控。
请记住,使用开源工具的一大好处是您可以查看源代码以准确了解它们的作用(如果您不喜欢它,可以更改行为)。快速浏览 LimitsOld.pm 显示 Gábor 的建议是正确的方法 - unknown_limit 可以基于每个服务或全局设置,并出现在 Munin 1.4.4 前后(请参阅http://munin-monitoring.org/ticket/828)。