SSD TRIM 的硬件 RAID 控制器支持

Question

Laurentiu Soica

Asked: 2020-08-17 22:50:59 +0800 CST2020-08-17 22:50:59 +0800 CST 2020-08-17 22:50:59 +0800 CST

队列已满时对冻结磁盘进行故障排除

772

我有一个安装了 k8s 的系统（centos 7.8）。

经过几天的正常操作（系统负载约为 30%，磁盘活动约为 60 iops，未饱和），系统进入不稳定状态，不再向磁盘提交任何内容。从图中可以看出iostat -x 5，avgqu-sz 冻结不再接受 r/w。

问题是我接下来应该去哪里寻找根本原因。

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0,00     0,00    0,00    0,00     0,00     0,00     0,00   169,00    0,00    0,00    0,00   0,00 100,00
dm-0              0,00     0,00    0,00    0,00     0,00     0,00     0,00   186,00    0,00    0,00    0,00   0,00 100,00
dm-1              0,00     0,00    0,00    0,00     0,00     0,00     0,00     7,00    0,00    0,00    0,00   0,00 100,00

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          11,36    0,00    1,71   86,94    0,00    0,00

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0,00     0,00    0,00    0,00     0,00     0,00     0,00   169,00    0,00    0,00    0,00   0,00 100,00
dm-0              0,00     0,00    0,00    0,00     0,00     0,00     0,00   186,00    0,00    0,00    0,00   0,00 100,00
dm-1              0,00     0,00    0,00    0,00     0,00     0,00     0,00     7,00    0,00    0,00    0,00   0,00 100,00

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          11,41    0,00    1,58   87,01    0,00    0,00

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0,00     0,00    0,00    0,00     0,00     0,00     0,00   169,00    0,00    0,00    0,00   0,00 100,00
dm-0              0,00     0,00    0,00    0,00     0,00     0,00     0,00   186,00    0,00    0,00    0,00   0,00 100,00
dm-1              0,00     0,00    0,00    0,00     0,00     0,00     0,00     7,00    0,00    0,00    0,00   0,00 100,00

/var/log/messages 在强制系统重置之前的最后一条日志行是：

kernel: ACPI Error: SMBus/IPMI/GenericSerialBus write requires Buffer of length 66, found length 32 (20130517/exfield-389)
kernel: ACPI Error: Method parse/execution failed [\_SB_.PMI0._PMM] (Node ffff99c2ba2513c0), AE_AML_BUFFER_LIMIT (20130517/psparse-536)
kernel: ACPI Exception: AE_AML_BUFFER_LIMIT, Evaluating _PMM (20130517/power_meter-339)

虽然，根据这个 RedHat 线程，这不应该是一个问题https://access.redhat.com/discussions/3871951

LE 1：有时我会在很短的时间（不到一分钟）内遇到类似的冻结，然后它会恢复。在 dmesg 输出中，我有：

[Lu aug 17 21:04:07 2020] hpsa 0000:06:00.0: scsi 0:1:0:0: resetting logical  Direct-Access     HP       LOGICAL VOLUME   RAID-1(+0) SSDSmartPathCap+ En+ Exp=1
[Lu aug 17 21:04:15 2020] hpsa 0000:06:00.0: device is ready.
[Lu aug 17 21:04:15 2020] hpsa 0000:06:00.0: scsi 0:1:0:0: reset logical  completed successfully Direct-Access     HP       LOGICAL VOLUME   RAID-1(+0) SSDSmartPathCap+ En+ Exp=1

LE 2：当磁盘不再恢复并且需要重置时，管理保存 dmesg 输出。

[Lu aug 24 13:00:18 2020] hpsa 0000:06:00.0: scsi 0:1:0:0: resetting logical  Direct-Access     HP       LOGICAL VOLUME   RAID-1(+0) SSDSmartPathCap+ En+ Exp=1
[Lu aug 24 13:03:20 2020] INFO: task scsi_eh_0:332 blocked for more than 120 seconds.
[Lu aug 24 13:03:20 2020] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[Lu aug 24 13:03:20 2020] scsi_eh_0       D ffff8c603fc9acc0     0   332      2 0x00000000
[Lu aug 24 13:03:20 2020] Call Trace:

因此 hpsa 进入了这个从未完成的重置逻辑磁盘访问过程。

1 个回答

Voted

yagmoth555 · Answer 1 · 2020-08-18T10:40:22+08:00

Best Answer

yagmoth555

2020-08-18T10:40:22+08:002020-08-18T10:40:22+08:00

上次我看到磁盘 IO 停止/暂停的这种症状是磁盘问题。它上面的磁盘控制器可能开始出现故障，但平台没问题。

我会检查以确保您有良好的备份，并且由于它是 raid 中的系统，因此请检查 scsi 控制器是否是最新的，因为它还没有将磁盘标记为坏的。

2

队列已满时对冻结磁盘进行故障排除

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

队列已满时对冻结磁盘进行故障排除

1 个回答

相关问题