我的部门维护着 6 台运行 Windows Server 2003 和 Ubuntu Server 的服务器。
我们必须报告和跟踪我们的正常运行时间。我相信我们必须有 95% 的正常运行时间,而且我们没有真正的方法来跟踪和报告这些数据。目前,我们只是使用文本文件手动执行此操作并估计停机时间。
有哪些工具可以帮助完成这项任务,或者您目前如何报告和跟踪您的服务器正常运行时间?
我的部门维护着 6 台运行 Windows Server 2003 和 Ubuntu Server 的服务器。
我们必须报告和跟踪我们的正常运行时间。我相信我们必须有 95% 的正常运行时间,而且我们没有真正的方法来跟踪和报告这些数据。目前,我们只是使用文本文件手动执行此操作并估计停机时间。
有哪些工具可以帮助完成这项任务,或者您目前如何报告和跟踪您的服务器正常运行时间?
啊,我最喜欢的话题之一。
首先,您需要定义“正常运行时间”。
你的意思是服务器正在运行?(在这种情况下,只需在脚本中定期 ping 它)。
或者你的意思是应用程序正在运行?(定期连接到应用程序的“主页”,假设它是一个网络应用程序)
或者您的意思是应用程序正在提供它应该提供的业务服务?(在这种情况下,您需要运行某种合成事务。
我认为只有最后一个在任何意义上都是正确的。其他的在技术上更容易做到,但与“这台服务器是否为业务提供价值”并没有真正的关联。
如果您单击我添加的链接,您将看到,有许多公司销售这样做的解决方案,或者您可以自己推出。我曾使用过 NetIQ 的产品和 Microsoft MOM(两者有共同的历史),但我相信其他人也能正常工作。
当您选择工具时,请考虑如何考虑计划的升级和维护期 - 一种天真的方法会将这些记录为停机时间。
此外,95% 的要求非常低——相当于每天 72 分钟的停机时间,或每周超过 8 小时的停机时间。例如,尝试在每个星期四的整个工作日让您的服务器停止服务,我想您会发现您的 SLA 实际上比这要求更高...
我使用http://mon.itor.us/(但目前已关闭)。
nagios将为您提供停机时间报告,并且在标准 ubuntu 存储库中可用。