关于【hardware-raid】的问题- 第1页

Matteo Ragni

Asked: 2025-03-24 19:04:21 +0800 CST

LSI MegaRaid 上的 RAID 5 更换故障磁盘（有或没有热插拔）

5

我收到了 RAID5 阵列（由 3 个磁盘组成）中 1 个磁盘的 SMART 警报。如果可能的话，我想更换故障磁盘，而无需关闭服务器。邮件警报中报告的错误是（部分信息已删除）：

此消息由运行于以下操作系统的 smartd 守护程序生成：

主机名：********* DNS 域：*********

Smartd 守护进程记录了以下警告/错误：

设备：/dev/bus/0 [megaraid_disk_10]，SMART 故障：数据通道即将发生故障常规硬盘故障

设备信息：[LENOVO ST2000NM003A LKB9]，lu id：0x5000*************，S/N：WJC0*************，2.00 TB

有关详细信息，请参阅主机的 SYSLOG。

您还可以使用 smartctl 实用程序进行进一步调查。有关此问题的原始消息于 2025 年 3 月 22 日星期六 04:36:14 CET 发送，如果问题仍然存在，将在 24 小时内发送另一条消息。

该服务器当前正在运行 Proxmox（基于 Debian 的发行版），磁盘由Lenovo RAID 730-8i 2GB Flash管理，据我所知，它是 LSI / Broadcom，并通过其实用程序在 SO 中进行管理MegaCli64，StorCli64我安装了两者。使用lspci | grep RAID：

58:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS-3 3108 [Invader] (rev 02)

控制器上有两个驱动组：

RAID1 适用于 2 个 SSD 磁盘，每个约 500GB
3 个 HDD 磁盘组成 RAID5，每个磁盘约 2TB。这是其中一台设备开始发出 SMART 警告的组。我找到了一个具有相同部件号的兼容磁盘，可以更换发出警告的磁盘。

RAID5 上的所有内容都已备份，因此我不太担心丢失数据，恢复起来需要做更多工作，如果可能的话，我想避免这种情况。

使用MegaCli64我得到的 RAID 配置：

# ./MegaCli64 -LDInfo -LAll -aAll

[... omissis other disk group ...]

Virtual Drive: 1 (Target Id: 1)
Name                :hddstorage
RAID Level          : Primary-5, Secondary-0, RAID Level Qualifier-3
Size                : 3.635 TB
Sector Size         : 512
Is VD emulated      : No
Parity Size         : 1.817 TB
State               : Optimal
Strip Size          : 64 KB
Number Of Drives    : 3
Span Depth          : 1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy   : Disabled
Encryption Type     : None
PI type: No PI

Is VD Cached: No

以及故障驱动器的当前状态：

# ./MegaCli64  -PDList –aAll

[... omissis other disks ...]

Enclosure Device ID: 252
Slot Number: 4
Drive's position: DiskGroup: 1, Span: 0, Arm: 2
Enclosure position: N/A
Device Id: 10  # <---- ID for the SMART check
WWN: 5000C500CE7FB828
Sequence Number: 2
Media Error Count: 79
Other Error Count: 1
Predictive Failure Count: 2
Last Predictive Failure Event Seq Number: 46655
PD Type: SAS

Raw Size: 1.819 TB [0xe8e088b0 Sectors]
Non Coerced Size: 1.818 TB [0xe8d088b0 Sectors]
Coerced Size: 1.817 TB [0xe8b6d000 Sectors]
Sector Size:  512
Logical Sector Size:  512
Physical Sector Size:  512
Firmware state: Online, Spun Up
Commissioned Spare : No
Emergency Spare : No
Device Firmware Level: LKB9
Shield Counter: 0
Successful diagnostics completion on :  N/A
SAS Address(0): 0x5000c500ce7fb829
SAS Address(1): 0x0
Connected Port Number: 4(path0) 
Inquiry Data: LENOVO  ST2000NM003A    LKB9WJC06CK0LKB9LKB9LKB9
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None 
Device Speed: 12.0Gb/s 
Link Speed: 12.0Gb/s 
Media Type: Hard Disk Device
Drive:  Not Certified
Drive Temperature :31C (87.80 F)
PI Eligibility:  No 
Drive is formatted for PI information:  No
PI: No PI
Port-0 :
Port status: Active
Port's Linkspeed: 12.0Gb/s 
Port-1 :
Port status: Active
Port's Linkspeed: 12.0Gb/s 
Drive has flagged a S.M.A.R.T alert : Yes  # <--- Faulty!

因此，通过查看驱动器的 SMART 结果，我得到了：

smartctl -a -d megaraid,10  /dev/sda

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.4.157-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               LENOVO
Product:              ST2000NM003A
Revision:             LKB9
Compliance:           SPC-5
User Capacity:        2.000.398.934.016 bytes [2,00 TB]
Logical block size:   512 bytes
LU is fully provisioned
Rotation Rate:        7200 rpm
Form Factor:          3.5 inches
Logical Unit id:      0x5000c500ce7fb82b
Serial number:        WJC06CK00000E024CJ6U
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Mon Mar 24 11:01:20 2025 CET
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: DATA CHANNEL IMPENDING FAILURE GENERAL HARD DRIVE FAILURE [asc=5d, ascq=30]

Grown defects during certification <not available>
Total blocks reassigned during format <not available>
Total new blocks reassigned = 29
Power on minutes since format <not available>
Current Drive Temperature:     32 C
Drive Trip Temperature:        65 C

Accumulated power on time, hours:minutes 39425:21
Manufactured in week 02 of year 2020
Specified cycle count over device lifetime:  50000
Accumulated start-stop cycles:  70
Specified load-unload count over device lifetime:  600000
Accumulated load-unload cycles:  2299
Elements in grown defect list: 29

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:          0     1699         0      1699       2335     504611,864         386
write:         0        0         0         0          0      73712,791           0
verify:        0     1809         0      1809       2122     471546,642         237

Non-medium error count:       11

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -       7                 - [-   -    -]
# 2  Background long   Aborted (by user command)   -       4                 - [-   -    -]
# 3  Background short  Completed                   -       4                 - [-   -    -]
# 4  Background long   Aborted (by user command)   -       4                 - [-   -    -]

Long (extended) Self-test duration: 13740 seconds [229,0 minutes]

或多或少可以确认驱动器上有些东西有问题。对其他磁盘（smartctl -a -d megaraid,8 /dev/sda和smartctl -a -d megaraid,9 /dev/sda）的检查报告读数正常：

[... omissis ...]
=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
[... omissis ...]

控制器尚未将磁盘脱机，经确认StorCli64：

# ./storcli64 /cALL show all

[... omissis ...]

Drive Groups = 2

TOPOLOGY :
========

-----------------------------------------------------------------------------
DG Arr Row EID:Slot DID Type  State BT       Size PDC  PI SED DS3  FSpace TR 
-----------------------------------------------------------------------------
 0 -   -   -        -   RAID1 Optl  N  446.102 GB dflt N  N   dflt N      N  
 0 0   -   -        -   RAID1 Optl  N  446.102 GB dflt N  N   dflt N      N  
 0 0   0   252:0    11  DRIVE Onln  N  446.102 GB dflt N  N   dflt -      N  
 0 0   1   252:1    12  DRIVE Onln  N  446.102 GB dflt N  N   dflt -      N  
 1 -   -   -        -   RAID5 Optl  N    3.636 TB dsbl N  N   dflt N      N  
 1 0   -   -        -   RAID5 Optl  N    3.636 TB dsbl N  N   dflt N      N  
 1 0   0   252:2    8   DRIVE Onln  N    1.818 TB dsbl N  N   dflt -      N  
 1 0   1   252:3    9   DRIVE Onln  N    1.818 TB dsbl N  N   dflt -      N  
 1 0   2   252:4    10  DRIVE Onln  N    1.818 TB dsbl N  N   dflt -      N   # <-- Used later for a storcli command
-----------------------------------------------------------------------------

[... omissis ...]

Physical Drives = 5

PD LIST :
=======

-----------------------------------------------------------------------------------------------------
EID:Slt DID State DG       Size Intf Med SED PI SeSz Model                                   Sp Type 
-----------------------------------------------------------------------------------------------------
252:0    11 Onln   0 446.102 GB SATA SSD N   N  512B MTFDDAK480TDS-1AW1ZA 02JG538D7A44703LEN U  -    
252:1    12 Onln   0 446.102 GB SATA SSD N   N  512B MTFDDAK480TDS-1AW1ZA 02JG538D7A44703LEN U  -    
252:2     8 Onln   1   1.818 TB SAS  HDD N   N  512B ST2000NM003A                            U  -    
252:3     9 Onln   1   1.818 TB SAS  HDD N   N  512B ST2000NM003A                            U  -    
252:4    10 Onln   1   1.818 TB SAS  HDD N   N  512B ST2000NM003A                            U  -     # <--- THIS LINE (State: Onln)
-----------------------------------------------------------------------------------------------------

[... omissis ...]

我订购了一个新ST2000NM003A磁盘（Seagate EXOS 7E8 SAS 12Gbit/s），正在准备更换磁盘的活动。为了进行更改，我使用命令打开了磁盘本地化./storcli64 /c0/e252/s4 start locate。现在我试图了解哪个是更换故障磁盘的正确程序。据我所知，对于实际降级的RAID5，我认为我应该：

将原始磁盘置于离线状态（控制器尚未将其设置为离线）
将故障磁盘标记为丢失
将故障磁盘标记为准备移除
插入新磁盘
将新磁盘联机
手动开始构建阵列
检查重建状态

我的 RAID 没有被报告为降级，但也许可以应用相同的程序。就命令而言，我认为我应该这样做StorCli64：

./storcli64 /c0/e252/s4 set offline
./storcli64 /c0/e252/s4 set missing
./storcli64 /c0/e252/s4 set spindown
将磁盘更换为同一位置的新磁盘
./storcli64 /c0/e252/s4 set spinup和./storcli64 /c0/e252/s4 set online
./storcli64 /c0/e252/s4 insert dg=1 array=0 row=2。这也应该自动启动重建过程。参数（dg如设备组、阵列和行）取自StorCli拓扑的输出。
./storcli64 /c0/e252/s4 show rebuild

这或多或少是我试图从RAID 控制器的PDF 指南StorCli中整理出来的，查看了处理该问题的章节（第 6 章）。但是，我无法确认这是正确的过程。

有人可以确认这是一个正确的程序吗？

arden opal

Asked: 2023-11-15 09:51:38 +0800 CST

从 raid 驱动器的驱动器映像访问数据

7

运行 RAID5 的 perc h700 控制器上的驱动器遇到错误，因此我使用ddrescue. 所有驱动器都有一些坏块，但大多数（> 99.98％）位都已成功读取，并且我现在拥有一个硬盘驱动器，其中包含属于 raid 阵列的每个驱动器的映像文件。

现在我有了 raid 阵列中所有驱动器的映像，是否有某种方法可以使用软件（也许mdadm？）来访问存储在阵列中的文件？或者只能使用创建数组的控制器来访问该数据？

Soleil

Asked: 2022-03-18 15:12:58 +0800 CST

Adaptec 6805 使用 GPT / NTFS 访问 JBOD

0

我有几个带有 GPT 和 NTFS 卷的硬盘驱动器，我将它们插入 Adaptec 6805，但从 Windows 10 和 MaxView 中看不到这些卷。我必须初始化的唯一选项（元数据和驱动器），如果我理解得很好，它将删除所有内容，这是我不想要的。

在这种情况下，如何从 6805 访问 NTFS 卷？甚至可能吗？

stackprotector

Asked: 2021-05-05 05:02:13 +0800 CST

HPE SSA：完成配置后 - 重新启动系统

0

我从 HPE ProLiant System Utilities (BIOS) 启动到 HPE Smart Storage Administrator (SSA)，以将具有 RAID6（和现有数据）的逻辑驱动器迁移到 RAID5。在开始需要几个小时才能完成的迁移任务后，我唯一能做的就是点击X右上角的。之后我被困在屏幕上说：

完成配置后 - 重新启动系统。

这意味着什么？我可以通过 iLO（重置或冷启动）重新启动服务器，还是必须等到迁移完成才能最终启动到我的操作系统？

Dmitry Sokolov

Asked: 2021-03-17 06:13:59 +0800 CST

如何为超过 4 个驱动器实施 RAID3/4？

0

我知道，4 个驱动器的 RAID 3/4 是：奇偶校验驱动器 = D1 XOR D2 XOR D3。但是有 5 个驱动器或更多驱动器是什么？例如 5 或 6。需要多少奇偶校验驱动器，以及 XOR 算法在这种情况下如何工作？

amicoderozer

Asked: 2021-02-16 06:57:02 +0800 CST

HP Proliant DL120 G7 不会显示 ORCA

0

我有旧服务器 HP Proliant DL120 G7。我在 RAID 10 中配置了 4 500GB 硬盘。通过此配置，我能够进入 ORCA 设置和连接的硬盘驱动器。然后我将驱动器更改为 4 个 1TB 硬盘。我无法让服务器读取可启动的 USB 来安装 Esx6，并且由于我恢复了 bios 中的默认设置而感到不安。现在它不会读取新的硬盘驱动器，也不会显示按 F8 键进入 ORCA 的选项。

Smart Array 工具搜索驱动器后的错误是：“未配置驱动器阵列”

我搜索了 SmartArray P410 驱动程序，但在任何地方都找不到。我在文档中有链接，但它不再可用。您认为这是驱动程序的问题吗？或者也许 BIOS 中有一个选项可以让我启用智能阵列？

谢谢

G. D'Seas

Asked: 2020-12-10 17:57:11 +0800 CST

RAID-5 无法运行，但没有磁盘故障

1

继承了具有 3ware LSI 9750-8i 的系统，该系统具有五个磁盘和 RAID-5。我看到有关 u1 的“ RAID-5 INOPERABLE ”的消息，但没有看到单元中唯一磁盘 (p1) 的磁盘故障。

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    OK             -       -       256K    5587.9    RiW    ON
u1    RAID-5    INOPERABLE     -       -       256K    5587.9    Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   1.82 TB   SATA  0   -            WDC WD2000FYYZ-01UL
p1    OK             u1   1.82 TB   SATA  1   -            WDC WD2003FYYS-02W0
p2    OK             u0   1.82 TB   SATA  2   -            WDC WD2003FYYS-02W0
p3    OK             u0   1.82 TB   SATA  3   -            WDC WD2003FYYS-02W0
p4    OK             u0   1.82 TB   SATA  4   -            WDC WD2000FYYZ-01UL

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       127    xx-xxx-xxxx

我不太了解这里发生了什么，也没有在日志或系统操作中看到任何错误。

我怀疑 u1/p1 是备用的。我对吗？我需要更换 p1 磁盘并重建 u1 阵列吗？或者只是尝试重建 u1 数组？

我拥有的用户指南没有说明在这种情况下该怎么做。

Joe

Asked: 2020-10-25 11:07:59 +0800 CST

将 Server 2019（带有 hyper-v 的完整操作系统）和 2 个 2019 来宾放在单个两磁盘 Raid 1 阵列上是否足够可靠？

0

我们目前在运行 HV 和来宾服务器 2012（总共 10 个来宾）的当前 HPE 2015 塔式服务器（2x Xeon 8c/8t 1.7ghz）上的 2 个 VM 遇到一些重大的 cpu/ram 性能问题，所以我们正在研究获得带有服务器 2016 或 2019 HV 的 HPE DL325 1x 8c/16t Epyc 3.2ghz，并为有问题的两个客人进行全新安装。

新服务器是 sata，只有 4 个 LFF 托架，因此具有更便宜的 sas 驱动器（如我们的塔式服务器）的大型 raid 10 阵列并不是真正的选择，因此为了以低成本最大化性能，我们正在寻找 2 个企业级 ssd ，无论是 HPE 品牌还是三星/英特尔。

我们的主要目标是可靠性/冗余，那么在这种情况下，Raid 1 中的 2 个 1TB SSD 驱动器是否足够可靠/高性能？我正在考虑对磁盘进行分区，以便服务器 2016/2019HV (~128GB) 在一个上，两个 vm guest 在另一个上 (~812GB)。

该服务器配备 HPE Smart Array S100i SR Gen10 SW RAID，我们是否应该忽略这一点并选择当前/上一代硬件 RAID 卡？SW突袭不够可靠吗？

我们的预算很紧（因此选择了 HPE DL325），而且我们是一家小型企业，任何关于可靠廉价配置的提示/指导将不胜感激。

GCon

Asked: 2020-10-16 07:32:03 +0800 CST

RAID-1 阵列上的数据布局

0

为了这个问题，假设两个相同驱动器的 RAID-1 阵列。

RAID-1（镜像）在两个驱动器上存储相同的数据副本。

驱动器布局有多相同？

驱动器是否逐个扇区相同（逻辑） -排除可能的 RAID 元数据？

如果不是，我假设需要在某处存储布局数据。这是在 RAID 控制器本身上，还是在驱动器内？

在相当老的软件工程师和年轻的软件工程师之间进行了一场（相当激烈的）讨论。这可能已经改变了吗？

Maxxer

Asked: 2020-07-22 02:16:15 +0800 CST

使用 SYS BRD ERR 从 IBM x3650 恢复数据

0

就像关闭服务器后的每一个系统管理员噩梦一样，我无法再打开它了。该服务器是旧的 IBM x3650 M4，由于未使用而已关闭，当然当不可用时，用户回忆起他们有一些东西留在那里。

正如所说的服务器无法启动，我尝试更换 CR2302 电池，让它在没有它的情况下关闭几分钟，但没有任何改变。我需要从 RAID 中恢复数据，而不仅仅是一个答案，我想了解一些关于我所拥有的选项的想法。

磁盘连接到主板的 SAS0 和 SAS1 端口，RAID 控制器连接到它。

我有一个可以使用的备用 x3500 M4 塔式服务器，但它使用 3.5" SATA 磁盘我猜控制器与磁盘不兼容。

除了换主板还有其他选择吗？

LSI MegaRaid 上的 RAID 5 更换故障磁盘（有或没有热插拔）

从 raid 驱动器的驱动器映像访问数据

Adaptec 6805 使用 GPT / NTFS 访问 JBOD

HPE SSA：完成配置后 - 重新启动系统

如何为超过 4 个驱动器实施 RAID3/4？

HP Proliant DL120 G7 不会显示 ORCA

RAID-5 无法运行，但没有磁盘故障

将 Server 2019（带有 hyper-v 的完整操作系统）和 2 个 2019 来宾放在单个两磁盘 Raid 1 阵列上是否足够可靠？

RAID-1 阵列上的数据布局

使用 SYS BRD ERR 从 IBM x3650 恢复数据

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

问题[hardware-raid](server)