使用 Nagios 监视 Novell 集群服务

Question

MadHatter

Asked: 2014-09-20 06:16:17 +0800 CST2014-09-20 06:16:17 +0800 CST 2014-09-20 06:16:17 +0800 CST

无法 PING 的主机的 NAGIOS 主机可用性测试，不会与我交谈，但可以跟踪路由

772

我的部分网络资产对可用性难以检查的主机具有相当重要的依赖性。我背后有许多主机，我的 NAGIOS VPS 提供商偶尔会出现路由问题，导致所有这些主机所在的提供商中断。当它不可用时，我更希望它后面的主机显示UNAVAILABLE而不是DOWN，因为它们没有关闭。

但是它的可用性很难检测，因为它不能被 PING

[me@nagios systems]$ ping -c 1 -w 1 205.251.232.153
[...]
1 packets transmitted, 0 received, 100% packet loss, time 1000ms

并且似乎没有响应查询的网络服务：

[me@nagios systems]$ nmap -P0 -sT 205.251.232.153
[...]
All 1000 scanned ports on 205.251.232.153 are filtered

但是，它确实参与并响应了traceroutes，这让我发现当我尝试与选定范围的 UDP 端口通信时，它会返回 ICMP-port-unreachable。这是tcpdump我做的输出echo foo|nc -u 205.251.232.197 33459：

[me@nagios systems]$ sudo tcpdump -n -n -i p1p1 host 205.251.232.197
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on p1p1, link-type EN10MB (Ethernet), capture size 65535 bytes
15:04:01.278269 IP a.b.c.d.36139 > 205.251.232.197.33459: UDP, length 4
15:04:01.448659 IP 205.251.232.197 > a.b.c.d: ICMP 205.251.232.197 udp port 33459 unreachable, length 36

所以在我看来，我需要的是一个向主机和端口发送 UDP 数据包并将 ICMP-port-unreachable 视为成功的证据的测试（没有听到任何内容构成失败）。有谁知道这样做的方法？其他人如何处理类似的监控问题？

2 个回答

Voted

chrskly · Answer 1 · 2014-09-20T12:05:35+08:00

chrskly

2014-09-20T12:05:35+08:002014-09-20T12:05:35+08:00

无论您使用什么协议来检查主机可用性，如果主机出现路由问题，它都会显示为关闭。如果您想检查主机的可用性，并且不想启用 ICMP，则可以针对您在那里运行的任何服务执行 check_tcp 或 check_udp。例如，用于 HTTP 的 check_tcp -p 80 或用于 ssh 的 check_tcp -p 22。

虽然，听起来您要解决的更大问题是在网关无法访问时不提醒网关后面的主机。这可以通过在 nagios 中定义依赖关系来解决。网关后面的主机（或服务）应该依赖于网关盒。然后，如果网关关闭，它不会提醒您其他主机。( http://nagios.sourceforge.net/docs/3_0/dependencies.html )

0

MadHatter · Answer 2 · 2014-10-15T02:21:04+08:00

我终于迟到地意识到，如果我可以通过主机进行路由跟踪，我也应该能够跟踪到该主机，并且在测试中证实确实如此。

我可以在NAGIOS 交易所等地方找到的所有与 traceroute 相关的插件都比这更复杂；他们想验证诸如链中第一跳或第二跳的身份之类的事情。我想要的只是一个插件，它可以验证我可以跟踪到主机并获得响应。我找到了一个（大致）可以做到这一点的插件，并将其修改为用于 Linux（特别是 CentOS 6）的形状；如果它对任何人有用，它会出现在下面。

#!/bin/sh
#set -vx

################################################################################
# AUTHOR: Vladimir Vuksan
# E-mail: Check http://vuksan.com/linux/
# License: GPL
# changes by Tom Yates, http://www.teaparty.net/
################################################################################
if [ $# -ne 1 ]; then
        echo "Usage: $0 <ip.address>"
        exit;
fi

IP=${1}

TRACEROUTE=`/bin/traceroute -n ${IP} 2>&1 | grep "${IP} "`
RESULT=`echo $TRACEROUTE | grep -c ms`

if [ $RESULT -eq 1 ]; then
        echo TRACERT OK: `echo $TRACEROUTE | cut -f4- -d" "`
        exit 0
else
        echo TRACERT CRITICAL: Host unreachable
        exit 2
fi

该主机此后多次变为不可用，而我的 NAGIOS 做了正确的事情：远端的所有主机都警告为不可用而不是关闭。

无法 PING 的主机的 NAGIOS 主机可用性测试，不会与我交谈，但可以跟踪路由

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

无法 PING 的主机的 NAGIOS 主机可用性测试，不会与我交谈，但可以跟踪路由

2 个回答

相关问题