我刚刚设置了 cacti 来监控我认为需要升级的服务器上的 CPU 和内存使用情况,但是为了能够证明我的资金支持,我需要确凿的事实。
我认为让 Cacti 监控内存使用情况和平均负载可以解决问题,但生成的图表似乎与现实无关。
根据顶部,我现在的平均负载徘徊在 5 左右,但 cacti 将其绘制为 0.1!
如何让 cacti 监控服务器上的实际负载平均值?要监控的服务器正在运行 RHEL5 并使用 net-SNMP 作为 SNMP 守护程序。
谢谢,
巴特。
我刚刚设置了 cacti 来监控我认为需要升级的服务器上的 CPU 和内存使用情况,但是为了能够证明我的资金支持,我需要确凿的事实。
我认为让 Cacti 监控内存使用情况和平均负载可以解决问题,但生成的图表似乎与现实无关。
根据顶部,我现在的平均负载徘徊在 5 左右,但 cacti 将其绘制为 0.1!
如何让 cacti 监控服务器上的实际负载平均值?要监控的服务器正在运行 RHEL5 并使用 net-SNMP 作为 SNMP 守护程序。
谢谢,
巴特。
仙人掌有一个糟糕的默认图表,它将负载平均值的 3 个值堆叠起来。总数是没有意义的,这就是你被欺骗看到的东西。将默认图形更改为使用线条而不是堆栈,您会看到更好的东西。
请记住,负载(例如 /proc/loadavg)可以在不同的时间间隔(通常为 1、5 和 15 分钟)进行平均。再加上一个事实,在时间序列上再次平均这些数字往往会降低整体指标,你可能很难为升级做准备。
我建议您停止考虑技术解决方案,并开始围绕不同的指标构建业务案例,最好是与经济或客户满意度指标相关的指标——例如最大响应时间。这很可能会将您的信息传达给管理资金的人。
你可能想看看Munin,它很容易设置,特别是如果你只是在本地运行它。它将让您快速开始跟踪 CPU 负载和其他资源,而无需弄乱 SNMP 和远程抓取资源数据。RedHat 的一些软件包应该很容易安装。
我想添加到@labradort 的答案。
我假设你在谈论
ucd/net - Load Average
模板。错误值的原因是它分别显示 1/5/15 的平均值,然后将它们加在一起。这些值在技术上是正确的,但看起来很奇怪。这是您纠正问题的方法:转到图表模板,然后选择右侧的复选框
ucd/net - Load Average
。向下滚动,选择“复制”作为操作(不删除),然后单击开始。
为您的新模板选择一个名称,例如
ucd/net - Alternative Load Average
。仍然在 Graph Templates 部分,单击新模板的超链接进行编辑。
点击“项目#3”。将“图表项目类型”从 STACK 更改为 LINE1,然后单击保存。
对“项目#5”重复此操作。
删除“第 7 项”:“(无任务):总计”
最终编辑应如下所示:
完成后点击保存。
这将使您的 1 分钟平均值成为半透明的块,而您的较长平均值则整齐地落后。最终结果如下所示: