我有一台 Windows 服务器(2022),配有两块 2TB 的三星 990 Pro SSD。我遇到了一些奇怪的问题,其中一个会不时消失。每隔 2 个月左右,有问题的磁盘就不再存在:diskpart
或者Get-PhysicalDisk
(在 PS 中)根本不再列出该磁盘。那时唯一能做的就是完全关闭电源并重新启动,简单地在操作系统中重新启动是不够的。
起初我以为是主板的问题,所以我联系了制造商,结果他们告诉我要确保不是磁盘的问题。经过反复考虑,我决定研究磁盘的潜在问题,以避免更换主板的麻烦,否则问题仍然存在。
检查磁盘的情况并不容易,因为这是 Server Core 安装,所以没有 GUI,但我能够进行一些分析,结果令人震惊:运行 MS 的 diskspd 显示两个磁盘的性能都非常糟糕。读写速度都略低于 50MiB/s,远低于 990 Pro 的规格。
所以我现在有几个问题:
- 这两个问题(磁盘时不时消失)有关联吗?
- 速度问题是否是由主板(ASRock X570S PG Riptide)引起的?
- 难道这些 SSD 是假货?我该如何检查?
- 对于进一步分析这一点有什么建议吗?
澄清:
- 服务器日志:事件查看器中未显示任何内容
- 硬盘使用年限:已使用一年,且未频繁使用
- 智能读数:这是我从 Samsung DC Toolkit 获得的输出:
磁盘编号:1:c | 型号名称:Samsung SSD 990 PRO 带散热器 2TB | 固件版本:0B2QJXG7
字节 | 描述 | 价值 |
---|---|---|
0 | 严重警告 | 0x00 |
2:1 | 复合温度 | 0x0142 |
3 | 可用备件 | 0x64 |
4 | 可用备用阈值 | 0x0A |
5 | 使用百分比 | 0x02 |
47:32 | 读取的数据单元 | 0x00000000000000000000000000011BD521 |
63:48 | 写入的数据单元 | 0x00000000000000000000000000010D94FB |
79:64 | 主机读命令 | 0x000000000000000000000000000DD8604F |
95:80 | 主机写命令 | 0x0000000000000000000000000001282EACA |
111:96 | 控制器繁忙时间 | 0x000000000000000000000000000000009963 |
127:112 | 电源循环 | 0x0000000000000000000000000000000020 |
143:128 | 通电时间 | 0x0000000000000000000000000000001F93 |
159:144 | 不安全停机 | 0x0000000000000000000000000000000014 |
175:160 | 介质和数据完整性错误 | 0x00000000000000000000000000000000 |
191:176 | 错误信息日志条目数 | 0x00000000000000000000000000000000 |
195:192 | 警告复合温度时间 | 0x00040880 |
199:196 | 临界复合温度时间 | 0x00000000 |
201:200 | 温度传感器1 | 0x0142 |
203:202 | 温度传感器2 | 0x0149 |
205:204 | 温度传感器3 | 0x0000 |
207:206 | 温度传感器 4 | 0x0000 |
209:208 | 温度传感器 5 | 0x0000 |
211:210 | 温度传感器 6 | 0x0000 |
213:212 | 温度传感器 7 | 0x0000 |
215:214 | 温度传感器 8 | 0x0000 |
更新至最新固件。如果您的驱动器继续出现故障,如出现性能不佳、消失和/或退出系统,则只需将其 RMA 即可。
三星 SSD 990 PRO 系列的当前固件版本似乎是 4B2QJXD7。显然,早于 1B2QJXD7 的固件版本有一个相当严重的错误,会严重损害 SSD 的使用寿命:
https://www.tomshardware.com/news/samsung-990-pro-health-dropping-fast
https://www.tomshardware.com/news/samsung-990-pro-firmware-update-released-ssd-health
https://www.youtube.com/shorts/D7XgEfxPGuo
https://www.reddit.com/r/hardware/comments/10jkwwh/samsung_990_pro_ssd_with_rapid_health_drops/
至少在版本 1B2QJXD7 中提供初始修复时,它阻止了驱动器的恶化,但并没有修复更新前已经发生的退化。较新的固件版本可能提供了更精细的修复,但不幸的是三星显然没有公布太多细节。
据我所知,您的固件版本 0B2QJXG7 可能受到此错误的影响,而且您的 SSD 似乎确实严重退化。您可能应该尽快更新固件,并尝试联系三星支持以获得可能的 RMA,因为这似乎是一个已知问题。
我有几项发现需要报告:
我所做的是,我从服务器上移除 SSD,然后将它们插入安装了普通 Windows 10 的机器中。这样我就可以使用 GUI,并允许我运行 Samsung Magician 和其他一些磁盘基准测试工具。它们都显示大约 6500 MB/s 的连续读取速度和略低的写入速度。我花了一些时间来理解磁盘插入服务器时从 diskspd 命令行获得的读数。修复该问题后,我在服务器本身上得到了类似的读数。解决了这个问题后,剩下的问题是我是否应该担心 6500 MB/s 的测量速度和 7450 MB/s 的三星官方速度之间的差距。目前,我决定将其归入营销宣传类别。
在 Samsung Magician 中,它提示我升级固件(根据 telcoM 的建议,从 0B2QJXG7 升级到 4B2QJXD7)。我觉得这是一个好主意,但又不想冒数据丢失的风险,所以我开始将驱动器中的内容复制到该 PC 上的另一个位置。所有文件都是 Hyper-V VHD,因此相当大。复制从 200GB 虚拟磁盘开始,大约一分钟后中断,出现了与我之前看到的行为相同的行为:磁盘不再存在:diskpart 看不到它,唯一能做的就是完全关闭电源并重新启动,简单地在操作系统中重新启动是不够的。
知道了发生这种情况的确切时间后,我详细查看了事件查看器,在那里我可以看到整个事件发生的顺序。我之前没有看到它的原因是,其中大部分内容都记录为警告:
所以我继续升级固件。一切都很顺利,我尝试通过复制一些大文件来重现错误,现在错误似乎已经消失了。
这一切都让我心里很不舒服:我以为这些都是高档驱动器,而且我付了高价。