我一直在研究在我们的生产环境中运行的 HP Gen9 服务器的 MTTF、MTBF、MTBR 和 MTBF。
我的问题的根源,应该担心与否。
我似乎无法获得任何好的数据,因为每台服务器都有硬件组合。
在我上一家公司,我们运行了大约 2000 台戴尔服务器 r210 r410 r710 我会说平均每天大约有 5 台服务器出现某种故障。因此,大约 0.25% 的服务器出现严重故障,需要更换部件才能再次使用。
我上一家公司的一切都设置在 HA 对、N+2 基础架构中,因此对生产没有影响。我们能够更换服务器并继续前进
在我现在的办公室,我们运行 9 台服务器(HP Gen9,56 台 VM 的 Hyper-V),我们手头没有很多替换部件,而且数据中心也没有管理,所以如果有东西死了,我们必须开车大约 45 分钟才能更换任何事物。
我的 CTO 和 IT 经理似乎很担心,他们去年有大约 2.5 天的停机时间,我一直在预测我们需要对服务器进行集群,但他们认为没有必要。
这里有错还是对?不知道该怎么办。
我知道,如果 CTO 出了什么事,那不是我的责任。这是一家非常小的公司,只有 CTO、IT 经理、我自己(开发人员)和 1 个帮助台人员。
总体而言,运行生产环境的经验非常有限,很多东西的设置方式我称之为初级水平,在我到达那里之前,我的 CTO 和 IT 经理都不太了解集群。他们正在进行一个没有 HA 的 DR 设置项目,我预言了这一点但失败了。
不必担心 MTTF、MTBF、MTBR 和 MTBF 数据……为什么这些数据适用于您的环境细节?
服务器具有内部冗余,并且在生产中可以非常稳定。但这取决于您的环境、磁盘阵列/组成、磁盘类型、RAM 数量、CPU 配置、热特性、功率等。
采用某种形式的高可用性可以减少停机的可能性,并为您提供一个在发生故障时转移工作负载的地方。
这是一个财务和操作风险问题。
也许从独立到集群的增量成本太高以至于没有商业意义?也许 2.5 天的停机时间(约 99.3% 的可用性)足以满足您的操作。您应该专注于异地保护和良好的备份。您的所有 HP Gen9 系统今天都在制造商保修期内,因此您可以使用部件。如果您有 RAID、冗余电源/风扇和稳定的电源,那么您已经涵盖了最关键的领域。
从财务角度考虑这一点,并概述风险、相关成本,并尝试为您想要的东西制作一个令人信服的商业案例。