Acabei de tentar executar um teste no meu disco rígido e ele não quer concluir um autoteste. Aqui está o resultado:
smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 697
3 Spin_Up_Time 0x0027 206 160 021 Pre-fail Always - 691
4 Start_Stop_Count 0x0032 074 074 000 Old_age Always - 26734
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 28
9 Power_On_Hours 0x0032 090 090 000 Old_age Always - 7432
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 097 097 000 Old_age Always - 3186
191 G-Sense_Error_Rate 0x0032 001 001 000 Old_age Always - 20473
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 84
193 Load_Cycle_Count 0x0032 051 051 000 Old_age Always - 447630
194 Temperature_Celsius 0x0022 113 099 000 Old_age Always - 34
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 16
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed: read failure 90% 7432 92290592
# 2 Conveyance offline Completed: read failure 90% 7432 92290596
# 3 Conveyance offline Completed: read failure 90% 7432 92290592
# 4 Short offline Completed: read failure 90% 7431 92290596
# 5 Extended offline Completed: read failure 90% 7431 92290592
Então este disco está falhando?
Sua unidade está muito feliz em fazer um autoteste; pelo resumo, fez mais de cinco deles na última hora. E todos eles falharam, logo no início do teste, com erros de leitura.
Sim, este disco rígido está falhando. Como disse o famoso relatório do Google Labs (embora eu não possa colocar minha mão em um link para ele no momento), se
smartctl
diz que sua unidade está falhando, provavelmente está (parafraseando).Editar : não tente salvá-lo. Obtenha todos os dados dele e substitua-o.
Para responder à sua pergunta, um teste SMART com falha é uma indicação infalível de falha iminente da unidade. Você deve fazer backup de seus dados e substituir a unidade o mais rápido possível para evitar possíveis perdas de dados.
@sj0h mencionou a contagem do ciclo de carga, que é muito alta em 447.630. (A maioria dos discos rígidos modernos são projetados para suportar 600.000 ciclos de carga/descarga.) Isso geralmente é causado pelo recurso Advanced Power Management (APM), que tenta economizar energia estacionando os cabeçotes (descarregando-os dos pratos) após vários segundos de uso. parado. As cabeças são colocadas de volta nos pratos quando necessário. Na maioria dos sistemas, onde os discos rígidos ficam intermitentes, com atividade de ligar e desligar, isso pode causar muitos ciclos de carga/descarga. Para desativar o APM, execute o seguinte comando em um prompt raiz:
Esse comando precisará ser executado toda vez que o sistema for reiniciado ou colocado em hibernação ou a unidade for desligada de outra forma, pois essa configuração não é retida quando a unidade é desligada.
Na minha experiência, fazer isso reduzirá drasticamente o número de ciclos de carga/descarga e, consequentemente, as chances de você experimentar esse tipo de falha novamente no futuro. Observe, no entanto, que isso aumenta o consumo de energia e a temperatura do drive. Se o drive funcionar constantemente em temperaturas superiores a 50 °C, o risco de falha prematura aumenta, então você pode querer deixar o APM ligado (ou ligá-lo se estiver desligado) durante os meses mais quentes.
Além das falhas de leitura, considere também a contagem do ciclo de carga. Em quase 500.000, isso pode indicar um motivo de falha ou, pelo menos, desgaste do ciclo de carga alta. Há um ciclo de carga para cada minuto de inicialização. Depois de substituir a unidade, certifique-se de que a nova unidade não esteja fazendo isso também.
Sim, você tem 16 setores ilegíveis, você tentou fazer vários testes que falharam mais ou menos na mesma área da unidade, portanto, faça backup rápido, mas lembre-se de que você possui dados já inacessíveis agora permanecendo nas proximidades de setores 92290592, 92290596.
Você pode ter outras áreas problemáticas, ainda não sabe se esses 16 setores são consecutivos ou espalhados, se quiser jogar após o backup, pode fazer um autoteste seletivo com -t select,startlba-endlba.
Current_Pending_Sector significa que o firmware do disco rígido tentou lê-lo, mas não conseguiu, tentará mais algumas vezes (sempre que o SO solicitar) até falhar e marcá-lo como Offline_Uncorrictable ou substituirá o setor danificado por outro sobressalente se o O SO grava nele (aumentando assim Reallocated_Sector_Ct ao fazer isso).
Eu pessoalmente substituiria a unidade. Se você, por algum motivo, não quiser fazer isso ainda, mas demorar um pouco com a unidade, você precisa de alguma maneira para garantir que não use acidentalmente as áreas ruins para novos arquivos.
Eu tinha uma unidade em um Mac antigo apenas gravando vídeo e decidi que não queria alterá-lo ainda, pois os vídeos eram simplesmente bons de se ter. Então eu precisava isolar os erros. Primeiro, criei uma pasta vazia apenas para arquivos inválidos e, em seguida, tentei ler todos os arquivos existentes no disco e qualquer um daqueles com erro foi movido para o diretório de arquivos inválidos (espero que apenas sem importância).
Em seguida, criei muitos arquivos de um megabyte com nomes exclusivos para preencher o disco rígido (portanto, todo o espaço vazio agora estava em um desses arquivos de 1 MB) e repeti o procedimento. Todos os arquivos com erros foram movidos para o diretório de arquivos ruins, e os que restaram estavam bons e poderiam ser excluídos para recuperar o espaço ruim.
Agora você pode usar a unidade um pouco mais, mas não a use para coisas importantes. Ele falhará mais e provavelmente será inconveniente quando isso acontecer.
Este não é um sinal muito bom. Você deve certificar-se de que o conteúdo do disco foi copiado e não usar o disco para nada importante.
No entanto, vi discos com setores com falha que os realocaram e permaneceram operacionais por anos, portanto, você pode mantê-los por um tempo, por exemplo, para coisas sem importância ou backups adicionais.
Uma coisa a fazer seria ver quais arquivos foram corrompidos pelos setores ilegíveis e gravar nesses setores para forçar a realocação pelo disco (movendo-os de "Current_Pending_Sector" para "Reallocated_Sector_Ct"). Se estiver usando Linux, consulte http://smartmontools.sourceforge.net/badblockhowto.html . Depois que os setores forem realocados, o autoteste deve passar ou relatar mais setores ilegíveis.
Discordo da maioria das respostas, pois não acho que setores defeituosos sejam necessariamente uma indicação de falha iminente. Como diz http://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/ , "todo disco rígido começa a produzir setores defeituosos em algum momento de sua vida".