Tenho um servidor Windows (2022) com dois SSDs Samsung 990 Pro de 2 TB. Tive alguns problemas estranhos com um deles desaparecendo de vez em quando. O que acontece é que a cada 2 meses ou mais, o disco em questão não existe mais: diskpart
ou Get-PhysicalDisk
(no PS) simplesmente não lista mais o disco. A única coisa a fazer naquele momento é um desligamento completo e reinicialização, uma simples reinicialização no SO não é suficiente.
No começo, pensei que fosse um problema com a placa-mãe, então entrei em contato com o fabricante e -surpresa!- eles me disseram para ter certeza de que não era um problema com o disco. Depois de algumas idas e vindas, decidi explorar um possível problema com os discos, simplesmente para evitar o incômodo de substituir a placa-mãe e ainda ter o problema.
Examinar a situação dos discos não foi tão fácil, porque esta é uma instalação Server Core, então sem GUI, mas eu consegui fazer algumas análises, que revelaram um choque: rodar o diskspd da MS mostrou um desempenho completamente abismal para ambos os discos . Tanto a leitura quanto a gravação estão um pouco abaixo de 50 MiB/s, o que é bem menor do que as especificações do 990 Pro.
Então agora tenho algumas perguntas:
- Os dois problemas (disco desaparecendo de tempos em tempos) estão relacionados?
- O problema de velocidade pode ser causado pela placa-mãe (é uma ASRock X570S PG Riptide)?
- Poderia ser que os SSDs sejam falsificados? E como posso verificar isso?
- Alguma sugestão para analisar isso melhor?
Esclarecimento:
- Logs do servidor: nada aparece no visualizador de eventos
- Idade das unidades: elas têm um ano e não foram usadas intensivamente
- Leituras inteligentes: Esta é a saída que obtive do Samsung DC Toolkit:
Número do disco: 1:c | Nome do modelo: Samsung SSD 990 PRO com dissipador de calor de 2 TB | Versão do firmware: 0B2QJXG7
Bytes | Descrição | Valor |
---|---|---|
0 | Aviso Crítico | 0x00 |
2:1 | Temperatura composta | 0x0142 |
3 | Sobressalente disponível | 0x64 |
4 | Limite de reposição disponível | 0x0A |
5 | Porcentagem usada | 0x02 |
47:32 | Unidades de dados lidas | 0x00000000000000000000000000011BD521 |
63:48 | Unidades de Dados Escritas | 0x00000000000000000000000000010D94FB |
79:64 | Comandos de leitura do host | 0x00000000000000000000000000DD8604F |
95:80 | Comandos de gravação do host | 0x000000000000000000000000001282EACA |
111:96 | Tempo ocupado do controlador | 0x00000000000000000000000000000009963 |
127:112 | Ciclo de energia | 0x00000000000000000000000000000000020 |
143:128 | Horas de energia | 0x0000000000000000000000000000001F93 |
159:144 | Desligamentos inseguros | 0x00000000000000000000000000000000014 |
175:160 | Erros de integridade de mídia e dados | 0x00000000000000000000000000000000 |
191:176 | Número de entradas de log de informações de erro | 0x00000000000000000000000000000000 |
195:192 | Aviso Tempo de Temperatura Composta | 0x00040880 |
199:196 | Tempo de temperatura crítica composta | 0x00000000 |
201:200 | Sensor de temperatura 1 | 0x0142 |
203:202 | Sensor de temperatura 2 | 0x0149 |
205:204 | Sensor de temperatura 3 | 0x0000 |
207:206 | Sensor de temperatura 4 | 0x0000 |
209:208 | Sensor de temperatura 5 | 0x0000 |
211:210 | Sensor de temperatura 6 | 0x0000 |
213:212 | Sensor de temperatura 7 | 0x0000 |
215:214 | Sensor de temperatura 8 | 0x0000 |