我们使用以下规格的一些“备用”部件构建了一些运行 Windows Server 2016 的服务器:
- 超微 X10DRH-iT
- 双 E5-2620 v3
- 256GB 注册 ECC DDR4 内存
- 1 个 Adaptec 71685 RAID 控制器
- 8 个英特尔 DC S3500 80GB 固态硬盘
- 4 个英特尔 DC S3500 240GB 固态硬盘
- 4 个 300GB 15k SAS 硬盘
- 2x OCZ RevoDrive 350 480GB
- 1x OCZ RevoDrive 350 960GB
我们将这些服务器用于高性能 Oracle 数据库测试环境。
问题是,过了一段时间(真的很随机)并且没有在重负载或任何情况下,OCZ 350 驱动器开始运行,用警告和警告淹没 Windows 事件日志,ocz10xx Adapter \Device\RaidPort2 received srs interrupt.
并Request failed on \Device\0000004a, physical disk 2.
最终破坏部分 Oracle 表空间文件。
在这种状态下,Toshiba SSD Utility 工具只报告第一个 480GB 驱动器为 OK,其他两个丢失。
这些“警告”不会停止,直到我们完全关闭服务器电源,拔掉电源线,等待一段时间,然后重新启动它们。那时表空间文件仍然损坏,因此我们必须重新创建它们并闪回(或重新导入)数据库。
所有驱动程序和固件等都是最新的。
我们尝试在 BIOS 中设置关于电源、中断、时序、PCIe 等的所有可能的组合,将卡切换到不同的插槽,但无济于事。
有人知道我们可以尝试什么吗?如果可能的话,除了转储硬件!