我们目前使用几个 Nagios 工作人员使用 DNZ 分配工作负载,如下所述:https ://assets.nagios.com/downloads/general/docs/Distributed_Monitoring_Solutions.pdf 。我无法在官方文档中找到任何相关信息,大多数搜索只是将我链接回他们的网站。忽略所需的计算能力(CPU、RAM 等),单个 Nagios 实例可以监控多少主机或服务有硬性限制吗?个体工人呢?
我们目前使用几个 Nagios 工作人员使用 DNZ 分配工作负载,如下所述:https ://assets.nagios.com/downloads/general/docs/Distributed_Monitoring_Solutions.pdf 。我无法在官方文档中找到任何相关信息,大多数搜索只是将我链接回他们的网站。忽略所需的计算能力(CPU、RAM 等),单个 Nagios 实例可以监控多少主机或服务有硬性限制吗?个体工人呢?
我不确定您是在询问配置限制还是运行时限制。或两者。
如果您询问解析器将处理的对象(主机/服务/命令/联系人/其他)的数量是否有限制,看起来答案是“否”(查看解析器的源代码)。除非你在解析时内存不足。
当您进入数以万计的对象(甚至更多)领域时,解析配置所需的时间会急剧增加。不过,v3 的问题比 v4 的问题更大。有关更多信息,请参阅快速启动选项的文档页面。
如果您询问运行时限制,那么再次没有预配置或硬编码的上限。唯一真正重要的是 checks/second,以及您的硬件是否可以处理它。在这方面,具有 5 分钟 check_interval 的 10k 主机(或服务)与具有 1 分钟间隔的 2k 主机/服务相同。
观察(和趋势)平均检查延迟和执行时间
nagiostats
是评估 Nagios 容量问题的好方法。有一些简单的调整可以产生很大的不同,例如将检查结果假脱机到 ramdisk,并使用
check_icmp
而不是check_ping
. 在Tuning Nagios For Maximum Performance页面上有很好的建议。(但该页面还建议使用 UltraSCSI 磁盘而不是 IDE,让您了解它的最新情况......)您很难找到有关 Nagios 尺寸确定的确切信息的原因是没有两个安装是相同的,并且有太多变量可以说“您可以在每个核心每秒进行 X 次检查”或类似的东西。