当我突然添加一些额外的设备(已经超过 12000 个)时,无需对 nagios3 配置或操作系统(debian)文件系统进行任何更改
[1508925621] Warning: Return code of 127 for check of service 'PING' on host 'SOME-HOST.CISCO' was out of bounds. Make sure the plugin you're trying to run actually exists.
[1508925621] SERVICE ALERT: SOME-HOST.CISCO;PING;CRITICAL;HARD;3;(Return code of 127 is out of bounds - plugin may be missing)
所有的二进制文件都是可读/可执行的,自安装以来都没有改变。
它发生在该类型的所有主机上,请记住,这是一个多年来不间断工作的设置,我唯一能想到的是在运行检查时会遇到某种操作系统限制,因为这是唯一改变的事情,更多主机。我已经有max_concurrent_checks=1500
很长时间了。(它是一个 16 核 24GB RAM 物理服务器)
除了我运行的并发检查
check_result_reaper_frequency=25
max_check_result_reaper_time=20
大型主机组配置如下:
define host{
use generic-cisco
host_name SOME_HOST.CISCO
alias SOME_HOST.CISCO
address xxx.xxx.xxx.xxx
check_command check-host-alive
hostgroups cisco_devices
}
define service{
use generic-service
host_name SOME_HOST.CISCO
service_description PING
check_command check_ping!200.0,20%!600.0,60%
normal_check_interval 10
retry_check_interval 5
}
让它恢复到工作状态的唯一方法是关闭我添加的一些最近的主机,然后停止并启动,希望它运行良好。有什么建议么?
修复它的是,尽管我有许多其他性能建议,但我没有禁用
enable_environment_macros
现在性能没有下降。显然问题是操作系统正在努力使这些环境变量在这么多的主机上可用。通过这里找到我喜欢好的 nagios facepalm。