您应该安装 HP 的全套工具、hpasm/hprsm 软件包等。它们确实是我见过的最难安装的软件包。似乎它们是由不关心易于部署的人编写的。他们提供了一个您可以手动运行的 shell 脚本,首先使用它,直到您弄清楚如何破解该脚本、编写包装器、单独安装 RPM,或者精简或供应商以合理行事。
您应该监视 syslog 中这些工具的错误。
您应该解析 hpasmcli (show server, show dimm) 和 hpacucli (controller all show, then for each controller slot=X pd all show) 输出以识别故障。如果你依赖 syslog 报告,你会错过失败并有令人尴尬的灾难。
HP 的硬件挂钩本身是专有的,但它们确实通过许多“开放”方法(例如 SNMP/WMI/WBEM 等)公开了它们的工具。因此您不必使用 SIM/SMHP。
HP ASM 工具和 SNMP OID 是我们主要用于一般组件监控的工具......
或者,您也可以使用smartmontools监控磁盘驱动器,大多数传感器应该显示在lm_sensors
您应该安装 HP 的全套工具、hpasm/hprsm 软件包等。它们确实是我见过的最难安装的软件包。似乎它们是由不关心易于部署的人编写的。他们提供了一个您可以手动运行的 shell 脚本,首先使用它,直到您弄清楚如何破解该脚本、编写包装器、单独安装 RPM,或者精简或供应商以合理行事。
您应该监视 syslog 中这些工具的错误。
您应该解析 hpasmcli (show server, show dimm) 和 hpacucli (controller all show, then for each controller slot=X pd all show) 输出以识别故障。如果你依赖 syslog 报告,你会错过失败并有令人尴尬的灾难。
您还应该解析 hplog 输出,并在检查后清除输出,将此输出存档到某处。认为这是对 hpasmcli/hpacucli 检查的冗余检查。
您应该使用 hponcfg 来确保 ILO 已配置,并连接到它以确保它实际上是响应式的。
确保您可以升级固件,并定期这样做。HP 发布了关键的固件升级,例如,将由轻微内存错误导致的崩溃而不识别坏 DIMM 转变为故障灯。当并非绝对需要升级固件时,HP 改变了我对升级固件的看法。(嗯,这是绝对必要的,只是没有人告诉你)。
放弃 SNMP 的东西。您有很多工作要做,这只是额外的工作,不会为您提供所需的全部功能,因此您仍然需要完成其他工作。
在报告/管理硬件问题方面,惠普服务器仍然是最好的英特尔服务器。他们只是有一些非常烦人的问题。也许如果每个客户都至少抱怨一次,他们将使部署更容易。这没有任何借口。
运行 RHEL5 并持续监控 HP 管理工具以及偶尔对磁盘和内存进行压力测试的 DL3[68]0 G5 将是市场上最可靠的英特尔解决方案。只要尽你的努力,以确保你得到你的钱是值得的。HP 为您提供了这些工具,但它们并没有让它们像应有的那样易于使用。
仅使用 HP RAM。否则就不值得麻烦了。当 DIMM 出现故障时,您不需要供应商互相指责。
定期对故障灯进行数据中心演练,并使用它来纠正监控脚本中的故障。这就是我了解到 syslog 几乎没有用的原因,您必须定期检查 hpasmcli/hpacucli。