Jim Hunziker Asked: 2009-05-04 17:05:43 +0800 CST2009-05-04 17:05:43 +0800 CST 2009-05-04 17:05:43 +0800 CST 硬件组件的相对故障率 772 假设我正在设置单机服务器。在不知道其中的特定组件(并且能够查找它们的 MTBF)的情况下,服务器中硬件组件的典型相对故障率是多少? 同样,企业使用的所有服务器中最常更换的组件的排名是多少? hardware 8 个回答 Voted Best Answer Eddie 2009-05-04T19:26:06+08:002009-05-04T19:26:06+08:00 关于硬盘,许多人误解了 MTBF,认为 MTBF 为 100,000 小时的驱动器平均可以使用 11.5 年。制造商的意思是,在大量驱动器的集合中,N 在其生命周期内,一个驱动器将每 100,000/N 小时归档一次。如果您有 100,000 个驱动器,每个驱动器的 MTBF 为 100,000 小时,那么您应该期望驱动器平均每小时发生故障。 硬盘驱动器发生故障的频率超出人们的预期。备份,备份,备份。 任何带有活动部件的东西都可能发生故障,包括磁带驱动器、软盘驱动器、风扇等等。我已经让显卡上的风扇死了,导致显卡死机。我的电源风扇死了,导致计算机的大部分部件都死了。(从那时起,我就再也没有在没有额外风扇的情况下构建过系统。)磁带机需要格外小心,否则它们的使用寿命将大大缩短。这是因为它不仅会移动,而且磁带头也会与磁带介质发生物理接触——至少在许多磁带驱动器中是这样。使用普通磁带清洁介质过于频繁地清洁驱动器会磨损磁带磁头。 我已经让内置芯片组风扇死了,但到目前为止没有任何影响。到目前为止,我从未遇到过 CPU 风扇死机,但我倾向于经常升级,以至于我可能通过升级来避免这种情况。(咧嘴笑) 我每隔几年就更换一次磁盘驱动器(主要是因为可用容量增长得如此之快),所以很少遇到硬盘驱动器故障。我遇到过很多电源故障——对于一个除了风扇之外没有任何活动部件的组件,我的预期要多得多。我认为电源异常是许多电源故障的原因。 到目前为止,在几十年的计算中,我从未遇到过 CPU、RAM 或主板出现故障,除非有合理的原因,例如过热(风扇死机)。然而,多年来,一些品牌的主板的寿命比预期的要短得多,因为零件低于标准,通常是错误制造的电容器,电源进入主板。 任何有插入式连接的地方都是故障点。由于便宜的镀锡连接器,我的计算机出现故障(大部分是很久以前)。锡被氧化并且随着时间的推移连接因为越来越不可靠。最后我拔掉了所有的东西,用橡皮擦去锡连接器上的氧化层,把所有的东西都插回去,然后又开了一会儿。黄金连接器是首选连接器是有原因的。 从我在公司环境中看到的情况来看,在我的家中经历过的混杂中,组件似乎按照这个顺序出现故障,从最频繁到最不频繁。 硬盘驱动器和磁带驱动器 电源 粉丝 遥远,其他一切 上面没有提到,但是您应该期望所有闪存棒/卡最终都会死掉,具体取决于使用频率。但考虑到大多数此类卡的平均使用量,这将需要很长时间。闪存随着使用而“磨损”,存储单元最终会失效。 Portman 2009-05-04T19:44:07+08:002009-05-04T19:44:07+08:00 有趣的是,电池。 我没有确凿的数据,但我一生中更换的故障或性能不佳的电池比任何其他组件都多。这包括不间断电源、笔记本电脑/笔记本电脑、控制器电池、手机电池,可能还有很多其他电池。 这导致我总是为服务器机房的 UPS 储备一个额外的电池组。 Kyle Cronin 2009-05-04T17:23:32+08:002009-05-04T17:23:32+08:00 任何移动的东西,在服务器中基本上是硬盘驱动器和风扇,都会比固态组件更频繁地发生故障。电源是一个遥远但值得注意的第二个。其他一切(cpu、内存等)都非常可靠……这并不是说不会出现故障,但在你的磁盘/风扇/psu基础覆盖之后绝对应该担心。 womble 2009-05-04T17:09:02+08:002009-05-04T17:09:02+08:00 硬盘驱动器 其他一切 不过,最好在现场保留所有备件,除非您对硬件供应商决定给您的停机时间感到满意。 Brad 2012-10-20T10:16:25+08:002012-10-20T10:16:25+08:00 今天刚刚为我的公司研究了这个,我在extremetech.com上找到了一份微软白皮书的摘要,其中包含8个月的图表: 额定列是我计算戴尔硬件保修价值的一个不错的参考(我们只是要投资额外的硬件)。 完整的白皮书在这里:http ://research.microsoft.com/apps/pubs/default.aspx?id=144888 Eric Z Beard 2009-05-04T17:36:01+08:002009-05-04T17:36:01+08:00 您会看到硬件的固件和驱动程序出现的问题比实际看到的物理故障要多(至少在设备生命周期的早期),因此请确保它们是最新的并首先经过测试。 SATA 驱动器通常是第一个使用的驱动器。SAS 往往更可靠。(虽然我听说过有关最新 SATA 2 驱动器的好消息) Mikeage 2009-05-04T18:02:41+08:002009-05-04T18:02:41+08:00 硬盘 电源(太常见了) 您插入和拔出的东西(台式机比服务器更常见) 其他一切,尤其是在电源死机并随身携带物品之后…… 曾几何时,CPU爱好者也曾上榜;最近,我不记得上次看到一个停止工作是什么时候了,但这是有可能的,尤其是在尘土飞扬的环境中。 jldugger 2009-05-04T18:29:41+08:002009-05-04T18:29:41+08:00 谷歌发表了一篇论文,“大型磁盘驱动器群体中的故障趋势”,关于大量驱动器的故障统计。主要的收获是磁盘故障超出了 MTBF 所建议的范围。磁盘很容易成为服务器机房中最容易发生故障的地方。
关于硬盘,许多人误解了 MTBF,认为 MTBF 为 100,000 小时的驱动器平均可以使用 11.5 年。制造商的意思是,在大量驱动器的集合中,N 在其生命周期内,一个驱动器将每 100,000/N 小时归档一次。如果您有 100,000 个驱动器,每个驱动器的 MTBF 为 100,000 小时,那么您应该期望驱动器平均每小时发生故障。
硬盘驱动器发生故障的频率超出人们的预期。备份,备份,备份。
任何带有活动部件的东西都可能发生故障,包括磁带驱动器、软盘驱动器、风扇等等。我已经让显卡上的风扇死了,导致显卡死机。我的电源风扇死了,导致计算机的大部分部件都死了。(从那时起,我就再也没有在没有额外风扇的情况下构建过系统。)磁带机需要格外小心,否则它们的使用寿命将大大缩短。这是因为它不仅会移动,而且磁带头也会与磁带介质发生物理接触——至少在许多磁带驱动器中是这样。使用普通磁带清洁介质过于频繁地清洁驱动器会磨损磁带磁头。
我已经让内置芯片组风扇死了,但到目前为止没有任何影响。到目前为止,我从未遇到过 CPU 风扇死机,但我倾向于经常升级,以至于我可能通过升级来避免这种情况。(咧嘴笑)
我每隔几年就更换一次磁盘驱动器(主要是因为可用容量增长得如此之快),所以很少遇到硬盘驱动器故障。我遇到过很多电源故障——对于一个除了风扇之外没有任何活动部件的组件,我的预期要多得多。我认为电源异常是许多电源故障的原因。
到目前为止,在几十年的计算中,我从未遇到过 CPU、RAM 或主板出现故障,除非有合理的原因,例如过热(风扇死机)。然而,多年来,一些品牌的主板的寿命比预期的要短得多,因为零件低于标准,通常是错误制造的电容器,电源进入主板。
任何有插入式连接的地方都是故障点。由于便宜的镀锡连接器,我的计算机出现故障(大部分是很久以前)。锡被氧化并且随着时间的推移连接因为越来越不可靠。最后我拔掉了所有的东西,用橡皮擦去锡连接器上的氧化层,把所有的东西都插回去,然后又开了一会儿。黄金连接器是首选连接器是有原因的。
从我在公司环境中看到的情况来看,在我的家中经历过的混杂中,组件似乎按照这个顺序出现故障,从最频繁到最不频繁。
上面没有提到,但是您应该期望所有闪存棒/卡最终都会死掉,具体取决于使用频率。但考虑到大多数此类卡的平均使用量,这将需要很长时间。闪存随着使用而“磨损”,存储单元最终会失效。
有趣的是,电池。
我没有确凿的数据,但我一生中更换的故障或性能不佳的电池比任何其他组件都多。这包括不间断电源、笔记本电脑/笔记本电脑、控制器电池、手机电池,可能还有很多其他电池。
这导致我总是为服务器机房的 UPS 储备一个额外的电池组。
任何移动的东西,在服务器中基本上是硬盘驱动器和风扇,都会比固态组件更频繁地发生故障。电源是一个遥远但值得注意的第二个。其他一切(cpu、内存等)都非常可靠……这并不是说不会出现故障,但在你的磁盘/风扇/psu基础覆盖之后绝对应该担心。
不过,最好在现场保留所有备件,除非您对硬件供应商决定给您的停机时间感到满意。
今天刚刚为我的公司研究了这个,我在extremetech.com上找到了一份微软白皮书的摘要,其中包含8个月的图表:
额定列是我计算戴尔硬件保修价值的一个不错的参考(我们只是要投资额外的硬件)。
完整的白皮书在这里:http ://research.microsoft.com/apps/pubs/default.aspx?id=144888
您会看到硬件的固件和驱动程序出现的问题比实际看到的物理故障要多(至少在设备生命周期的早期),因此请确保它们是最新的并首先经过测试。
SATA 驱动器通常是第一个使用的驱动器。SAS 往往更可靠。(虽然我听说过有关最新 SATA 2 驱动器的好消息)
曾几何时,CPU爱好者也曾上榜;最近,我不记得上次看到一个停止工作是什么时候了,但这是有可能的,尤其是在尘土飞扬的环境中。
谷歌发表了一篇论文,“大型磁盘驱动器群体中的故障趋势”,关于大量驱动器的故障统计。主要的收获是磁盘故障超出了 MTBF 所建议的范围。磁盘很容易成为服务器机房中最容易发生故障的地方。