Eu tive HDDs anos atrás que costumavam falhar e o Windows me avisava que o HDD tinha um problema sério e me dava tempo para fazer algo a respeito, porque, caso contrário, depois de reiniciar, não era garantido que o HDD funcionasse novamente. Isso é como 10 + anos atrás.
Eu tenho um SSD há mais de 6 anos e o uso sem parar. É um SSD de 256 GB e até agora escrevi mais de 170 terabytes nele. Nas configurações de disco e unidades do Windows, vejo que ainda restam 54% de sua vida útil, o que é incrível.
Eu quero saber o quão confiável é exatamente esse número de tempo de vida? Eu sei que a configuração do Windows usa dados SMART para estimar o tempo de vida restante, mas os SSDs são como HDDs e eles falham repentinamente apenas por causa de um setor defeituoso ou algo assim? Ou eles se degradam gradualmente com o tempo? Eu verifico o tempo de vida restante a cada poucos meses e ele diminui 1% algumas vezes.
O que fazer sobre um aviso crítico para um dispositivo de armazenamento
Mais detalhes para o meu SSD:
O TBW para meu SSD é de 160 TB, mas já gravei 170 TB e o SMART mostra 54% do tempo de vida restante. quase sempre está funcionando a ~ 50.C temp.
Você nunca pode saber quando uma unidade específica vai falhar ou se ela falhará lentamente o suficiente para resgatar dados ou falhará repentina e catastroficamente.
SMART é um conjunto de algoritmos de 'adivinhação', na verdade. Pode ser um preditor confiável de declínio lento, mas nunca pode prever falha total repentina.
Você sempre precisa de um backup no local e precisa testá-lo periodicamente. Esperar pelo aviso não é confiável. Isso se torna ainda mais importante se uma unidade estiver criptografada, pois qualquer falha pode derrubar as chaves de criptografia, o que significa que os dados são perdidos imediatamente e totalmente.
Meu SSD mais antigo tem agora cerca de 10 anos. Ainda mostra '100% de saúde' quando olho para os números. Eu tenho dois aplicativos independentes que verificam os dados SMART em segundo plano a cada poucas horas.
Até agora tudo bem.
Meu backup interno é executado a cada hora, meu off-site durante a noite todas as noites. Também faço clones diretos periódicos.
Um dia, a unidade falhará. Nesse ponto, solicitarei um novo e voltarei a funcionar, com não mais do que uma hora de trabalho perdido, meia hora após a chegada do novo drive.
Certa vez, devido à total coincidência, duas unidades de inicialização em duas máquinas falharam em alguns meses. Ambas as unidades eram relativamente novas, ambas de fabricantes confiáveis.
Nada foi perdido em nenhum dos casos.
O desgaste do SSD se deve principalmente à quantidade cumulativa de dados gravados nele. Portanto, os fornecedores usam testes acelerados e modelos estatísticos para quantificar a quantidade de dados gravados que um determinado modelo pode suportar e classificam esse modelo em termos de TBW (TeraBytes escritos). O "tempo de vida restante" SMART é baseado nisso: se você gravou 170 TB e tem 54% restantes, sua unidade provavelmente terá cerca de 370 TBW.
O que acontece quando a unidade atinge o TBW fornecido e a vida útil restante é 0%? Nada... O TBW é apenas um valor estatístico, digamos "Depois do TBW, 99% dos drives ainda estão funcionando corretamente" (não sei se é 99%, 90%, 99,9%, mas é uma ideia, com um determinado limite): então é perfeitamente possível que seu particular dure o dobro do TBW fornecido (e também é perfeitamente possível que ele falhe após a metade do TBW).
Existem outros atributos SMART que podem ajudar a prever melhor uma falha, como a taxa de erro de leitura, a contagem de setores pendentes, a contagem de setores realocados... Quando um deles começar a aumentar, você deve se preocupar com o drive. Observe que um setor defeituoso em si, ou mesmo alguns setores defeituosos, não é suficiente para dizer que a unidade falhará em breve.
E ainda, um SSD também pode falhar a qualquer momento, sem nenhum aviso, com todos os atributos SMART que estavam OK. Mas não é diferente de qualquer produto eletrônico ou mecânico.
Eles certamente se degradam com o tempo, o que tem a ver com uma quantidade finita de ciclos de programa/apagamento, que é basicamente o que os atributos relacionados ao tempo de vida restante estão tentando medir. O controlador tentará fazer com que esse desgaste aconteça uniformemente sobre a NAND.
Também é conhecido que, por exemplo, a capacidade das células de reter 'dados' diminui à medida que a quantidade de ciclos p/e para essas células aumenta. IOW, o SSD mais próximo do EOL previsto não é o mesmo SSD de quando você o comprou. Portanto, embora essas células ainda possam ser programadas, elas estão em um estado pior do que antes.
Como resultado, o SSD precisa fazer mais manutenção, o que contribui para o desgaste: essa diminuição da capacidade de retenção de dados é compensada, por exemplo, pela atualização periódica dos dados pelo SSD (patrulhamento), que envolve a leitura dos dados e sua gravação em um local diferente. esse próprio processo também está contribuindo para um aumento dos ciclos p/e.
Mas os SSDs podem e certamente também falharão repentinamente devido a, por exemplo, bugs de firmware, corrupção de firmware, raios cósmicos, perda repentina de energia, trauma físico, desgaste de componentes SMD e outros enfeites.
A taxa de recuperação do SSD pelos laboratórios de recuperação de dados é consideravelmente menor do que a dos HDDs convencionais, portanto, manter backups talvez seja ainda mais importante (é importante de qualquer maneira, mas você entendeu).
Com relação a este caso particular , a pontuação de integridade exibida pela ferramenta SMART é baseada no atributo 05:
54% é baseado em um único valor RAW, atributo 05 'porcentagem usada', 0x2E (46 decimal) - esse valor aumenta conforme a situação se deteriora). A capacidade sobressalente reservada ainda está 100% disponível (0x64) - Esse valor cai conforme a situação se deteriora.
Não é incomum que os fabricantes de SSD alterem as especificações e troquem os componentes.
Eu não diria que é (sempre) assim. Um HDD geralmente emite ruídos incomuns antes de falhar e você ainda pode lê-lo, desde que funcione quando falhar (não o desligue então!). Quando tive um SSD falhando, ele ficou completamente indisponível de um segundo para o outro e o PC não o reconheceu como uma unidade desde então.
Como sempre, pessoas diferentes têm experiências diferentes e todos têm um fabricante que funciona bem para eles e que não comprariam novamente. Mas parece que os controladores SSD desligam tudo quando os controladores HDD parecem tentar o melhor (ou são incapazes de detectar se é uma falha final ou ainda apenas uma próxima).
Com o nivelamento de desgaste moderno, os SSDs devem reconhecer as células defeituosas com antecedência, pois podem perceber quando uma célula não funciona quando gravam em outra célula durante o nivelamento de desgaste e geralmente têm mais setores sobressalentes do que os HDDs. Claro, isso depende do modelo e do firmware também.
Estimativas como "x TB restantes" ou "54% de tempo de vida restante" são apenas estimativas. Você pode obter uma nova unidade na garantia, desde que o smart ainda informe a vida útil restante, mas isso não ajudará a recuperar os dados perdidos. Faça backups, obtenha novas unidades de tempos em tempos e certifique-se de monitorar outros valores inteligentes que podem indicar uma unidade degradante.
Todos os principais SSDs fabricados na última década têm capacidade sobressalente. A quantidade exata varia, mas é de aproximadamente 10% quando a unidade é nova. Isso é necessário porque gravar em um SSD é destrutivo. O SSD direciona suas gravações para a capacidade sobressalente e, em seguida, coloca as partes substituídas de volta na capacidade sobressalente. O nivelamento de desgaste garante que todas as partes de um SSD sejam gravadas igualmente. Se uma gravação falhar, porque um setor ficou ruim, ele será retirado da capacidade sobressalente e a gravação será repetida em outro setor sobressalente.
Isso significa que o SSD pode comparar a capacidade sobressalente com a lista de setores defeituosos. Se o seu SSD ficar sem blocos sobressalentes, ele não poderá mais gravar novos dados. Portanto, essa relação é uma medida simples e eficaz da vida útil esperada.
Mas há outras partes do SSD que também podem falhar e não podem ser medidas com segurança. Portanto, esse tempo de vida baseado em capacidade sobressalente não é desculpa para deixar de fazer backups.
O SMART era quase inútil para HDDs principalmente porque não conseguia levar em consideração a maioria dos modos de falha e os processos que levavam a eles.
Ele relatou alguns dados potencialmente úteis (horas ligado, número de ciclos de inicialização, número de setores defeituosos e vários outros números que poderiam ser usados para algumas previsões básicas, mas os parâmetros do modelo variavam entre modelos e às vezes até entre lotes de discos.
Para SSDs, não melhorou muito.
O volume de dados gravados é o número mais importante para um SSD e, em teoria, pode-se compará-lo com as promessas do datasheet, mas, novamente, alguns discos funcionam bem após 10 vezes o volume nominal de gravação e outros morrem antes.
Resumindo, use marcas conceituadas, use RAID , use UPS , faça backups e espere pelo melhor.