我们有一个带有 P410 RAID 卡的 DL180 G6 服务器。服务器具有以下三个 RAID 阵列。
4x2TB - RAID 10
4x2TB - RAID 10
2x2TB - RAID 1
2x2TB HD 配置为三个阵列的热备件。
以下是 ESXCLI 的相关输出
插槽 1 中的智能阵列 P410
Bus Interface: PCI
Slot: 1
Serial Number: PACCR9VYJKGQ
Cache Serial Number: PAAVP9VYJCYN
RAID 6 (ADG) Status: Enabled
Controller Status: OK
Hardware Revision: C
Firmware Version: 2.72
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Surface Scan Mode: Idle
Parallel Surface Scan Supported: No
Queue Depth: Automatic
Monitor and Performance Delay: 60 min
Elevator Sort: Enabled
Degraded Performance Optimization: Disabled
Inconsistency Repair Policy: Disabled
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 0 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 25% Read / 75% Write
Drive Write Cache: Disabled
Total Cache Size: 512 MB
Total Cache Memory Available: 400 MB
No-Battery Write Cache: Disabled
Cache Backup Power Source: Batteries
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: True
Number of Ports: 2 Internal only
Driver Name: HP HPSA
Driver Version: 6.0.0
PCI Address (Domain:Bus:Device.Function): 0000:06:00.0
Host Serial Number: USE626N2XD
Sanitize Erase Supported: False
Primary Boot Volume: None
Secondary Boot Volume: None
Secondary Boot Volume: None
阵列 A(SATA,未使用空间:0 MB)
logicaldrive 1 (3.6 TB, RAID 1+0, OK)
physicaldrive 1I:1:9 (port 1I:box 1:bay 9, SATA, 2 TB, OK)
physicaldrive 1I:1:10 (port 1I:box 1:bay 10, SATA, 2 TB, OK)
physicaldrive 1I:1:11 (port 1I:box 1:bay 11, SATA, 2 TB, OK)
physicaldrive 1I:1:12 (port 1I:box 1:bay 12, SATA, 2 TB, OK)
physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)
阵列 B(SATA,未使用空间:0 MB)
logicaldrive 2 (3.6 TB, RAID 1+0, OK)
physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 2 TB, OK)
physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 2 TB, OK)
physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 2 TB, OK)
physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 2 TB, OK)
physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)
阵列 C(SATA,未使用空间:0 MB)
logicaldrive 3 (1.8 TB, RAID 1, OK)
physicaldrive 1I:1:7 (port 1I:box 1:bay 7, SATA, 2 TB, OK)
physicaldrive 1I:1:8 (port 1I:box 1:bay 8, SATA, 2 TB, OK)
physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)
现在在 ESXI 中,我们不时会收到以下错误。
由于连接问题,无法访问卷 5456cb3e-4fbdb59c-a37a-d8d385644ec0 (datastore2)。正在进行恢复尝试
请记住,它会同时影响所有三个阵列,并且在几秒钟内所有三个阵列都会恢复。据了解,所有驱动器都连接到 P410 RAID 卡上的一个端口。您是否认为使用这两个端口可以提高性能并有可能消除这个反复出现的问题?
此时我们已经尝试了所有软件解决方案,包括更新固件(更新到 6.64)。还有什么其他选择?
更新 1
如上所述,两个备用驱动器被配置为所有三个阵列的备用驱动器。我从所有阵列中移除了大约 15 分钟的备件,并且错误停止了。现在我已经为第一个阵列配置了第一个备用,为第二个阵列配置了第二个备用,以查看错误是否再次出现。
更新 2
重新连接备件导致错误返回,并且影响所有三个阵列。因此,我将一一移除备件以进一步解决此问题。这可能是此处描述的已知问题:http: //community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/ESXi5x-HPSA-P410i-WARNING-LinScsi-SCSILinuxAbortCommands-1843/td-p/6818369 . 手指交叉。
问题中发布的两个更新和进一步的故障排除,引导我们找到问题的真正答案。我们发现它与 P410 RAID 卡的 ESXI 中的驱动程序有关。我们从http://h20564.www2.hpe.com/hpsc/swd/public/detail?swItemId=MTX_d18033ac346f468c92062ce127降级到驱动程序的 .60 版,问题得到解决。
请记住,包括 0.114、0.116 和最近发布的 0.118 在内的最新驱动程序均无效。因此,这是解决该问题的唯一软件解决方案,除非您的问题与用户 @ewwhite 所描述的硬件有关。
请记住,仅当您在 DL180G6 服务器中使用带有 P410 卡的备用驱动器时,才会出现此问题。我还看到其他 HP 服务器也会出现这种情况的帖子,因此您可以在这些服务器上尝试 .60 版本的驱动程序,看看它是否能解决您的问题。
在面对这个问题时,您可能还会看到磁盘延迟的周期性峰值,而服务器上没有任何相应的读/写负载,通过下图可以更好地解释这一点:
在上图中,红点表示连接备件时的周期性尖峰。绿点表示移除备用的时间段。
如上图所示,延迟峰值与任何相应的读/写负载无关,并且是周期性的。在我们的例子中,这些发生的时间正好相隔五分钟。备件一卸下,尖刺就停止了。
要降级到 .60 版本的驱动程序,请在正常关闭 VM 后将您的机器置于维护模式并发出以下命令
之后重新启动您的服务器。希望这可以帮助某人。当惠普为 P410 发布稳定版本的 HPSA 驱动程序时,我将更新此答案,这不会导致备用驱动器出现此问题。
这可能是背板或背板扩展器问题。可能是电缆的可能性很小。可能还有RAID控制器。
您使用的 DL180 G6 可能是 12 槽 3.5" 单元,并通过单条 4 通道 SAS SFF-8087 电缆连接到 Smart Array P410。
升级固件是您应该做的第一件事。更新控制器固件后,您是否遇到过同样的问题?您可能还想制作磁盘的固件以获得更好的效果。
但是看到此服务器的设计完全取决于 SAS 背板,并且所有磁盘同时受到影响,您正在查看可能需要维修或更换的连接问题。