我们正在开展一个项目,该项目涉及所有托管在单个机架中的不同硬件。这些机器主要是IBM服务器:2 x206(scsi),1 x226(scsi),2 x3400(sata)和另一台带有sata控制器的组装机。我们正在使用几个raid控制器。有些机器只有一个 Serveraid 控制器,有些机器有一个或多个控制器,并不总是 Adaptec 控制器。所有固件和BIOS都已更新。所有服务器和连接的设备都处于停机状态。
在过去的 4 个月里,我们在硬件中遇到了一些奇怪的行为。突然,我们随机丢失了 2 或 3 个驱动器,raid 卷停止工作。它可以每周发生一次,但绝不会在一天或一周的同一时间发生。
大多数时候重建过程可以解决问题,有时我们会丢失数据。很多时候我们只需要拔掉raid控制器,重启服务器,问题就解决了。
一开始我们认为这是由于固件错误,但我们对每台机器和raid控制器都进行了准确的更新,在硬件上我们无能为力。我们真的不知道是什么导致了所有这些麻烦。
我们开始认为这是一个环境问题,但我们不知道是否有什么东西会干扰我们的硬件。你听说过这样的事情吗?您对如何调查问题有任何想法吗?
这很容易归因于固件错误,而不是控制器上的错误,而是驱动器上的错误。见得太频繁了,数不过来。
如果我在来自不同供应商的服务器中的不同供应商的 RAID 控制器上的驱动器以异常速率出现故障,我会开始将服务器机房中的高温和不良气流视为问题的潜在原因。