我的部分网络资产对可用性难以检查的主机具有相当重要的依赖性。我背后有许多主机,我的 NAGIOS VPS 提供商偶尔会出现路由问题,导致所有这些主机所在的提供商中断。当它不可用时,我更希望它后面的主机显示UNAVAILABLE
而不是DOWN
,因为它们没有关闭。
但是它的可用性很难检测,因为它不能被 PING
[me@nagios systems]$ ping -c 1 -w 1 205.251.232.153
[...]
1 packets transmitted, 0 received, 100% packet loss, time 1000ms
并且似乎没有响应查询的网络服务:
[me@nagios systems]$ nmap -P0 -sT 205.251.232.153
[...]
All 1000 scanned ports on 205.251.232.153 are filtered
但是,它确实参与并响应了traceroute
s,这让我发现当我尝试与选定范围的 UDP 端口通信时,它会返回 ICMP-port-unreachable。这是tcpdump
我做的输出echo foo|nc -u 205.251.232.197 33459
:
[me@nagios systems]$ sudo tcpdump -n -n -i p1p1 host 205.251.232.197
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on p1p1, link-type EN10MB (Ethernet), capture size 65535 bytes
15:04:01.278269 IP a.b.c.d.36139 > 205.251.232.197.33459: UDP, length 4
15:04:01.448659 IP 205.251.232.197 > a.b.c.d: ICMP 205.251.232.197 udp port 33459 unreachable, length 36
所以在我看来,我需要的是一个向主机和端口发送 UDP 数据包并将 ICMP-port-unreachable 视为成功的证据的测试(没有听到任何内容构成失败)。有谁知道这样做的方法?其他人如何处理类似的监控问题?
无论您使用什么协议来检查主机可用性,如果主机出现路由问题,它都会显示为关闭。如果您想检查主机的可用性,并且不想启用 ICMP,则可以针对您在那里运行的任何服务执行 check_tcp 或 check_udp。例如,用于 HTTP 的 check_tcp -p 80 或用于 ssh 的 check_tcp -p 22。
虽然,听起来您要解决的更大问题是在网关无法访问时不提醒网关后面的主机。这可以通过在 nagios 中定义依赖关系来解决。网关后面的主机(或服务)应该依赖于网关盒。然后,如果网关关闭,它不会提醒您其他主机。( http://nagios.sourceforge.net/docs/3_0/dependencies.html )
我终于迟到地意识到,如果我可以通过主机进行路由跟踪,我也应该能够跟踪到该主机,并且在测试中证实确实如此。
我可以在NAGIOS 交易所等地方找到的所有与 traceroute 相关的插件都比这更复杂;他们想验证诸如链中第一跳或第二跳的身份之类的事情。我想要的只是一个插件,它可以验证我可以跟踪到主机并获得响应。我找到了一个(大致)可以做到这一点的插件,并将其修改为用于 Linux(特别是 CentOS 6)的形状;如果它对任何人有用,它会出现在下面。
该主机此后多次变为不可用,而我的 NAGIOS 做了正确的事情:远端的所有主机都警告为不可用而不是关闭。