Tenho um servidor Windows (2022) com dois SSDs Samsung 990 Pro de 2 TB. Tive alguns problemas estranhos com um deles desaparecendo de vez em quando. O que acontece é que a cada 2 meses ou mais, o disco em questão não existe mais: diskpart
ou Get-PhysicalDisk
(no PS) simplesmente não lista mais o disco. A única coisa a fazer naquele momento é um desligamento completo e reinicialização, uma simples reinicialização no SO não é suficiente.
No começo, pensei que fosse um problema com a placa-mãe, então entrei em contato com o fabricante e -surpresa!- eles me disseram para ter certeza de que não era um problema com o disco. Depois de algumas idas e vindas, decidi explorar um possível problema com os discos, simplesmente para evitar o incômodo de substituir a placa-mãe e ainda ter o problema.
Examinar a situação dos discos não foi tão fácil, porque esta é uma instalação Server Core, então sem GUI, mas eu consegui fazer algumas análises, que revelaram um choque: rodar o diskspd da MS mostrou um desempenho completamente abismal para ambos os discos . Tanto a leitura quanto a gravação estão um pouco abaixo de 50 MiB/s, o que é bem menor do que as especificações do 990 Pro.
Então agora tenho algumas perguntas:
- Os dois problemas (disco desaparecendo de tempos em tempos) estão relacionados?
- O problema de velocidade pode ser causado pela placa-mãe (é uma ASRock X570S PG Riptide)?
- Poderia ser que os SSDs sejam falsificados? E como posso verificar isso?
- Alguma sugestão para analisar isso melhor?
Esclarecimento:
- Logs do servidor: nada aparece no visualizador de eventos
- Idade das unidades: elas têm um ano e não foram usadas intensivamente
- Leituras inteligentes: Esta é a saída que obtive do Samsung DC Toolkit:
Número do disco: 1:c | Nome do modelo: Samsung SSD 990 PRO com dissipador de calor de 2 TB | Versão do firmware: 0B2QJXG7
Bytes | Descrição | Valor |
---|---|---|
0 | Aviso Crítico | 0x00 |
2:1 | Temperatura composta | 0x0142 |
3 | Sobressalente disponível | 0x64 |
4 | Limite de reposição disponível | 0x0A |
5 | Porcentagem usada | 0x02 |
47:32 | Unidades de dados lidas | 0x00000000000000000000000000011BD521 |
63:48 | Unidades de Dados Escritas | 0x00000000000000000000000000010D94FB |
79:64 | Comandos de leitura do host | 0x00000000000000000000000000DD8604F |
95:80 | Comandos de gravação do host | 0x000000000000000000000000001282EACA |
111:96 | Tempo ocupado do controlador | 0x00000000000000000000000000000009963 |
127:112 | Ciclo de energia | 0x00000000000000000000000000000000020 |
143:128 | Horas de energia | 0x0000000000000000000000000000001F93 |
159:144 | Desligamentos inseguros | 0x00000000000000000000000000000000014 |
175:160 | Erros de integridade de mídia e dados | 0x00000000000000000000000000000000 |
191:176 | Número de entradas de log de informações de erro | 0x00000000000000000000000000000000 |
195:192 | Aviso Tempo de Temperatura Composta | 0x00040880 |
199:196 | Tempo de temperatura crítica composta | 0x00000000 |
201:200 | Sensor de temperatura 1 | 0x0142 |
203:202 | Sensor de temperatura 2 | 0x0149 |
205:204 | Sensor de temperatura 3 | 0x0000 |
207:206 | Sensor de temperatura 4 | 0x0000 |
209:208 | Sensor de temperatura 5 | 0x0000 |
211:210 | Sensor de temperatura 6 | 0x0000 |
213:212 | Sensor de temperatura 7 | 0x0000 |
215:214 | Sensor de temperatura 8 | 0x0000 |
Atualize para o firmware mais recente. Se sua unidade continuar se comportando mal, como mostrar desempenho ruim, desaparecer e/ou sair do sistema, você apenas a RMA.
A versão atual do firmware para a série Samsung SSD 990 PRO parece ser 4B2QJXD7. E, aparentemente, versões de firmware mais antigas que 1B2QJXD7 tinham um bug bem ruim que prejudicaria seriamente a vida útil do SSD:
https://www.tomshardware.com/news/samsung-990-pro-health-dropping-fast
https://www.tomshardware.com/news/samsung-990-pro-firmware-update-released-ssd-health
https://www.youtube.com/shorts/D7XgEfxPGuo
https://www.reddit.com/r/hardware/comments/10jkwwh/samsung_990_pro_ssd_with_rapid_health_drops/
Pelo menos quando a correção inicial foi fornecida na versão 1B2QJXD7, ela impediu que a unidade piorasse, mas não corrigiu a degradação que já estava acontecendo antes da atualização. As versões mais recentes do firmware podem ter fornecido correções mais refinadas, mas infelizmente a Samsung aparentemente não divulgou muitos detalhes.
Pelo que entendi, sua versão de firmware 0B2QJXG7 seria a afetada por esse bug, e parece que seus SSDs estão realmente profundamente degradados. Você provavelmente deve atualizar o firmware o mais rápido possível e talvez tentar entrar em contato com o suporte da Samsung para um possível RMA, pois esse parece ser um problema conhecido.
Tenho várias descobertas para relatar:
O que eu fiz foi remover os SSDs do servidor e conectá-los em uma máquina com um Windows 10 normal instalado. Isso me deu acesso a uma GUI e me permitiu executar o Samsung Magician e algumas outras ferramentas de benchmark de disco. Todos eles mostraram cerca de 6500 MB/s de velocidade de leitura sequencial e uma velocidade de gravação um pouco menor. Passei algum tempo entendendo as leituras que obtive da linha de comando diskspd quando os discos foram conectados no servidor. Depois de consertar isso, obtive uma leitura semelhante no próprio servidor. Com isso resolvido, a questão restante é se devo me preocupar com a lacuna entre a velocidade medida de 6500 MB/s e a velocidade oficial da Samsung de 7450 MB/s. Por enquanto, decidi colocar isso na categoria de propaganda de marketing.
Enquanto estava no Samsung Magician, ele me levou a atualizar o firmware (de 0B2QJXG7 para 4B2QJXD7, como sugerido pela telcoM). Pensando que era uma boa ideia, mas não querendo arriscar perda de dados, comecei a copiar coisas da unidade para outro local naquele PC. Todos os arquivos são VHDs do Hyper-V, então são bem grandes. A cópia começou com um disco virtual de 200 GB e foi interrompida após cerca de um minuto com o mesmo comportamento que vi antes: o disco não existe mais: o diskpart não o vê e a única coisa a fazer é desligar e reiniciar completamente, uma simples reinicialização no sistema operacional não é suficiente.
Tendo um momento exato de quando isso ocorreu, passei pelo visualizador de eventos em detalhes, onde pude ver toda a sequência de eventos acontecendo. O motivo pelo qual não vi antes é que a maioria está registrada como avisos:
Então eu fui em frente e atualizei o firmware. Tudo correu bem e eu tentei reproduzir o erro copiando alguns arquivos grandes e ele parece ter desaparecido por enquanto.
Tudo isso me deixa com um gosto amargo: pensei que eram discos premium e paguei preços altos.