Nagios 服务器正在监视我的托管 Windows Sharepoint 的服务器。
我从 Nagios Server 的收件箱中收到以下 2 个警报
1.服务:C:\驱动空间
状态:关键
附加信息:
CRITICAL - 10 秒后的套接字超时
2.服务:CPU负载
状态:关键
附加信息:
CRITICAL - 10 秒后的套接字超时
我从这些中推断出什么?
Nagios 服务器正在监视我的托管 Windows Sharepoint 的服务器。
我从 Nagios Server 的收件箱中收到以下 2 个警报
1.服务:C:\驱动空间
状态:关键
附加信息:
CRITICAL - 10 秒后的套接字超时
2.服务:CPU负载
状态:关键
附加信息:
CRITICAL - 10 秒后的套接字超时
我从这些中推断出什么?
该检查无法联系用于监视您的服务器的网络服务。我希望它是 WMI 或 NSClient。您还没有说主机已关闭,所以我假设 nagios 可以 ping 主机正常。如果服务没有运行,您会收到拒绝连接消息,但您会收到套接字超时,这意味着它无法在一定时间内建立连接。鉴于您可以 ping 机器并且无法访问套接字,我会说可能有防火墙挡住了。
需要更多信息,例如:
话虽如此,如果您间歇性地收到这些信息,则可能意味着 Nagios 服务器、正在检查的服务器或网络处于非常高的负载下并且无法及时响应,除了其他人所说的之外。
它甚至可能是 IP 冲突之类的东西。
您还可以尝试增加 nagios.cfg 中的全局超时和/或特定插件的超时(通常是 -t 开关)。
作为第一步,确保检查命令可以在本地运行,然后尝试从远程手动运行它们(所有内容都包含在文档中)。根据结果,您可能需要确保 Windows 防火墙打开了适当的端口,并且允许 Nagios 机器连接到 Windows 主机。对于它的价值,这 2 次检查通常非常快,所以它们不应该超时。
每当我看到这样的警报时,通常意味着服务器代理没有运行,或者被阻止正确响应检查命令。
您发布的示例都是主动检查(需要在服务器上安装代理)而不是仅执行 HTTP 请求或 ping 的被动检查,因此请确保代理正在运行;NSClient 将在目标机器上的服务控制管理器中将自己报告为“Nagios Agent”,而 NSClient++ 则称自己为 NSClientpp。
如果此服务之前正常工作,则可能是网络间歇性故障。
在工作中,它帮助我们发现对我们的异地数据中心的一些不稳定的访问问题。
很好,因为您没有提供有关如何配置这些服务检查的足够信息,我会冒险猜测您正在使用 SNMP 或 NRPE。
如果您使用的是 NRPE,我强烈建议您摆脱它,因为我过去一直遇到问题,并且使管理成为一场噩梦,因为当您进行更改以更正时,您必须更新所有服务器上的插件一个问题。
另一方面,如果您使用 SNMP 来监控 CPU 负载和驱动器空间,那么您的 SNMP 进程似乎遇到了响应问题。根据个人经验,我不得不问这台机器是否被大量使用?我在 MS Windows 中看到过这种行为,之前它在高利用率下给 SNMP 进程低优先级,因此 SNMP 检查开始因超时问题而失败。如果这从未奏效,那么我会检查以确保您使用的是正确的 SNMP 社区字符串和/或如果您使用基于 IP 的身份验证,轮询器的 IP 在机器上的 SNMP 配置中被正确允许访问。
同样,在不知道它是如何配置的情况下,很难提供更详细的帮助。
同意上面的一切。我唯一要确保查看的是检查您是否以某种方式在支票上启用了 SSL(这将导致严重破坏),反之亦然,如果您需要启用 SSL。
如前所述,查看本地配置(nsclient.ini 或 nrpe.cfg)并找出您尝试连接的端口。然后从远程机器上运行一个 telnet,看看你是否能够访问它。
如果这对您来说是一个间歇性问题,即您只是不时收到这些警告而没有警告等,但是服务器和服务按预期工作,它很可能是我遇到的相同问题,这是由于插件超时有点短(在某些情况下低至 10 秒)。
答案是查阅您使用的插件的文档以查看是否可以延长超时时间,然后修改您的 commands.cfg 文件或每个服务器配置,以便增加每次检查的超时时间。
希望这可以帮助 :)
克里斯