我最近将我的一台服务器搬到了我所在的房间,并发现了一些奇怪的东西。每天早上一个小时或更长时间,磁盘活动都会出现巨大的爆发。我正在运行 3ware 9750-4i RAID 控制器。这是控制器状态的屏幕转储。
有趣的是服务器上没有显示任何活动,这是一台运行 ubuntu 的开发机器,大部分时间都是空闲的。这是控制器自己做的事情吗?某种日常维护?
我最近将我的一台服务器搬到了我所在的房间,并发现了一些奇怪的东西。每天早上一个小时或更长时间,磁盘活动都会出现巨大的爆发。我正在运行 3ware 9750-4i RAID 控制器。这是控制器状态的屏幕转储。
有趣的是服务器上没有显示任何活动,这是一台运行 ubuntu 的开发机器,大部分时间都是空闲的。这是控制器自己做的事情吗?某种日常维护?
继承了具有 3ware LSI 9750-8i 的系统,该系统具有五个磁盘和 RAID-5。我看到有关 u1 的“ RAID-5 INOPERABLE ”的消息,但没有看到单元中唯一磁盘 (p1) 的磁盘故障。
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 OK - - 256K 5587.9 RiW ON
u1 RAID-5 INOPERABLE - - 256K 5587.9 Ri ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 1.82 TB SATA 0 - WDC WD2000FYYZ-01UL
p1 OK u1 1.82 TB SATA 1 - WDC WD2003FYYS-02W0
p2 OK u0 1.82 TB SATA 2 - WDC WD2003FYYS-02W0
p3 OK u0 1.82 TB SATA 3 - WDC WD2003FYYS-02W0
p4 OK u0 1.82 TB SATA 4 - WDC WD2000FYYZ-01UL
Name OnlineState BBUReady Status Volt Temp Hours LastCapTest
---------------------------------------------------------------------------
bbu On Yes OK OK OK 127 xx-xxx-xxxx
我不太了解这里发生了什么,也没有在日志或系统操作中看到任何错误。
我怀疑 u1/p1 是备用的。我对吗?我需要更换 p1 磁盘并重建 u1 阵列吗?或者只是尝试重建 u1 数组?
我拥有的用户指南没有说明在这种情况下该怎么做。
我们有一个使用 3ware 9550SX RAID 控制器的 RAID 5,它显示了一个降级的磁盘。为阵列配置了备用驱动器,但未按预期自动使用。
当前阵列状态如下:
> /c0 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 DEGRADED - - 64K 11175.8 OFF OFF
u1 SPARE OK - - - 1863.01 - OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 1.82 TB 3907029168 WD-WMAY0108****
p1 OK u0 1.82 TB 3907029168 WD-WMAY0080****
p2 OK u0 1.82 TB 3907029168 WD-WMAY0109****
p3 OK u0 1.82 TB 3907029168 WD-WMAY0080****
p4 DEVICE-ERROR u0 1.82 TB 3907029168 WD-WMAY0108****
p5 OK u0 1.82 TB 3907029168 WD-WMAY0109****
p6 OK u0 1.82 TB 3907029168 WD-WMAY0080****
p7 OK u1 1.82 TB 3907029168 WD-WCAY0188****
Name OnlineState BBUReady Status Volt Temp Hours LastCapTest
---------------------------------------------------------------------------
bbu On Yes OK OK OK 0 xx-xxx-xxxx
> /c0/u1 show
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u1 SPARE OK - - p7 - 1863.01
> /c0/u0 show
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u0 RAID-5 DEGRADED* - - - 64K 11175.8
u0-0 DISK OK - - p6 - 1862.63
u0-1 DISK OK - - p5 - 1862.63
u0-2 DISK DEGRADED - - p4 - 1862.63
u0-3 DISK OK - - p3 - 1862.63
u0-4 DISK OK - - p2 - 1862.63
u0-5 DISK OK - - p1 - 1862.63
u0-6 DISK OK - - p0 - 1862.63
u0/v0 Volume - - - - - 11175.8
在尝试手动触发重建时,tw_cli
我们遇到了以下错误:
> /c0/u0 start rebuild disk=p7
Error: (CLI:144) Invalid drive(s) specified.
我们尝试了该命令的更多变体(/c0/u0 start rebuild disk=7
和maint rebuild c0 u0 p7
),但它似乎不是语法错误或指定驱动器时的错误。出于某种原因,RAID 控制器不想使用这个特定的驱动器来重建。
备用驱动器是否必须在同一个单元中?或者可能是备件来自不同批次的问题?我怎样才能让阵列使用我们必须重建阵列的备用?
我有一个带有 22 磁盘 raid 10 的 3ware 9750-8i 设置。我们需要扩展设备的容量,因此我分两次将设备中的每个驱动器都更换为更大的驱动器。目前该单元显示一切正常,但它仍然显示每个子单元为 274.729 GB,而不是新的驱动器大小 931.51 GB。
我曾尝试将设备迁移到相同的 raid 级别,但遗憾的是,它只是拒绝这样做。
我的问题是,如何实际将单元/子单元扩展到额外的可用空间?
非常感谢!
今天早上我来到办公室发现 RAID-6、3ware 9650SE 控制器上的两个驱动器被标记为降级并且它正在重建阵列。在达到大约 4% 后,它在第三个驱动器上出现 ECC 错误(当我尝试访问此 RAID 上的文件系统并从控制器收到 I/O 错误时可能会发生这种情况)。现在我处于这种状态:
> /c2/u1 show
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u1 RAID-6 REBUILDING 4%(A) - - 64K 7450.5
u1-0 DISK OK - - p5 - 931.312
u1-1 DISK OK - - p2 - 931.312
u1-2 DISK OK - - p1 - 931.312
u1-3 DISK OK - - p4 - 931.312
u1-4 DISK OK - - p11 - 931.312
u1-5 DISK DEGRADED - - p6 - 931.312
u1-6 DISK OK - - p7 - 931.312
u1-7 DISK DEGRADED - - p3 - 931.312
u1-8 DISK WARNING - - p9 - 931.312
u1-9 DISK OK - - p10 - 931.312
u1/v0 Volume - - - - - 7450.5
检查相关三个驱动器上的 SMART 数据,降级的两个状态良好(通过,没有任何 Current_Pending_Sector 或 Offline_Uncorrectable 错误),但列为 WARNING 的驱动器有 24 个不可纠正的扇区。
而且,“重建”现在已经停留在 4% 十个小时了。
所以:
我如何让它开始实际重建?这个特定的控制器似乎不支持/c2/u1 resume rebuild
,并且似乎是一个选项的唯一重建命令是一个想知道要添加哪个磁盘的命令(/c2/u1 start rebuild disk=<p:-p...> [ignoreECC]
根据帮助)。我的服务器中有两个热备件,我很乐意使用它们,但我不明白在当前状态下它会如何处理这些信息。
当我在 RAID-6 中有两个 DEGRADED 驱动器时,我可以拔出明显发生故障的驱动器(WARNING 驱动器)吗?在我看来,最好的方案是我拉出 WARNING 驱动器并告诉它在重建中使用我的一个热备件。但是我不会通过在带有两个 DEGRADED 驱动器的 RAID-6 中拉出一个“好”驱动器来解决这个问题吗?
最后,我在其他帖子中看到此控制器中的一个严重错误导致良好驱动器被标记为错误并且升级固件可能会有所帮助。鉴于这种情况,刷新固件是否是一项有风险的操作?它对重建但停留在 4% 的 RAID 有帮助还是有害?我是否遇到了这个错误?
精神之外的建议将不胜感激。谢谢。
我有许多使用 3ware RAID 控制器的 CentOS 5 服务器。
这些服务器向我的团队发送关于微小温度变化的消息,如下所示:
Jun 8 12:32:39 HOST smartd[1231]: Device: /dev/twa0 [3ware_disk_01], SMART Usage Attribute: 194 Temperature_Celsius changed from 119 to 118
Jun 8 12:32:39 HOST smartd[1231]: Device: /dev/twa0 [3ware_disk_03], SMART Usage Attribute: 194 Temperature_Celsius changed from 122 to 121
我怎样才能抑制这些消息?
根据 man smartd.conf:
要禁用 3 种报告中的任何一种,请将相应的限制设置为 0。可以省略尾随零参数。默认情况下,禁用所有温度报告 ('-W 0')。
在我的系统上,smartd 默认报告温度变化。
我尝试了手动方法。在/etc/smartd.conf
中,我有以下内容:
/dev/twa0 -d 3ware,1 -a -W 0
/dev/twa0 -d 3ware,3 -a -W 0
但这仍然不会抑制消息。
由于这些消息显示在 /var/log/messages 中,因此 LogWatch 每晚都会发送不必要的电子邮件。
我有一个 3ware 9650SE RAID 控制器和一个包含 15 个希捷 ST31000340NS 磁盘的 RAID 5 阵列。在注意到端口 10 驱动器中的 ECC 错误后,我将其替换为备用驱动器并开始重建 RAID。在重建过程中,端口 5 磁盘完全失败,导致阵列无法运行,因为端口 10 中的新磁盘不完整。该阵列在重建期间一直使用,直到端口 5 磁盘出现故障。我希望通过放回原来的端口 10 磁盘来恢复数据,但是 RAID 控制器没有将其添加回阵列。相反,它被列为“可用”。我的问题是,如何强制控制器在其原始位置识别原始端口 10 磁盘?3dm2界面中没有“添加磁盘”选项。
* 额外信息 *感谢所有与我的原始帖子有关的意见和建议。我之前应该提到过,阵列在重建期间以只读方式安装。我不知道这对强制控制器接受原始磁盘的机会是否有任何影响。顺便说一句,没有备份。不管发生什么,我当然已经吸取了教训。RAID5。
我有一台带有 3Ware 9650SE 8 端口控制器的服务器。我有一个 8 驱动器 raid 5 阵列,其中一个热备用驱动器作为阵列的一部分,大小约为 3.87 TB。今天登录服务器时,我发现我现在有两个阵列 - 1 个阵列的所有驱动器都正常,但热备件不再是成员,第二个阵列只有主机备件(相同大小)只有热备用标记为良好,所有其他驱动器(其他阵列中的正常成员)标记为降级。
我有备份,但不确定它是否已损坏。
关于导致这种情况发生的任何建议。接下来做什么?我应该删除第二个阵列并将驱动器合并回正常运行的阵列吗?