Eu tenho um servidor doméstico que uso para o Home Assistant com Ubuntu Server. Tudo estava bem, mas algum dia o servidor parou de responder. Eu o conectei a um monitor e ele exigia uma verificação manual do sistema de arquivos na partição raiz (que usa LVM). Executei o fsck e estava tudo bem novamente. Hoje, o sistema não inicializa e em cada inicialização requer um fsck manual. A primeira coisa que pensei foi um SSD ruim. Coloquei-o no meu PC principal e executei um comando smartctl. Aqui está o que surge:
=== START OF INFORMATION SECTION ===
Device Model: SPCC Solid State Disk
Serial Number: AA230111S3051234838
LU WWN Device Id: 0 000000 000000000
Firmware Version: HPS1104J
User Capacity: 512.110.190.592 bytes [512 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
TRIM Command: Available
Device is: Not in smartctl database 7.3/5528
ATA Version is: ACS-2 T13/2015-D revision 3
SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Mon May 27 17:31:09 2024 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 120) seconds.
Offline data collection
capabilities: (0x5d) SMART execute Offline immediate.
No Auto Offline data collection support.
Abort Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0002) Does not save SMART data before
entering power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 4) minutes.
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x0032 100 100 050 Old_age Always - 0
5 Reallocated_Sector_Ct 0x0032 100 100 050 Old_age Always - 8
9 Power_On_Hours 0x0032 100 100 050 Old_age Always - 9483
12 Power_Cycle_Count 0x0032 100 100 050 Old_age Always - 113
160 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 0
161 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 0
163 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 202
164 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 226541
165 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 1640
166 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 5
167 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 154
168 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 0
169 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 100
175 Program_Fail_Count_Chip 0x0032 100 100 050 Old_age Always - 858193939
176 Erase_Fail_Count_Chip 0x0032 100 100 050 Old_age Always - 90814572
177 Wear_Leveling_Count 0x0032 100 100 050 Old_age Always - 28417544
178 Used_Rsvd_Blk_Cnt_Chip 0x0032 100 100 050 Old_age Always - 754974721
181 Program_Fail_Cnt_Total 0x0032 100 100 050 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 050 Old_age Always - 19
192 Power-Off_Retract_Count 0x0032 100 100 050 Old_age Always - 67
194 Temperature_Celsius 0x0032 100 100 050 Old_age Always - 40
195 Hardware_ECC_Recovered 0x0032 100 100 050 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 100 100 050 Old_age Always - 20922
197 Current_Pending_Sector 0x0032 100 100 050 Old_age Always - 11
198 Offline_Uncorrectable 0x0032 100 100 050 Old_age Always - 0
199 UDMA_CRC_Error_Count 0x0032 100 100 050 Old_age Always - 0
232 Available_Reservd_Space 0x0032 100 100 050 Old_age Always - 0
241 Total_LBAs_Written 0x0032 100 100 050 Old_age Always - 138948
242 Total_LBAs_Read 0x0032 100 100 050 Old_age Always - 93039
249 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 4562399
SMART Error Log Version: 0
No Errors Logged
O comando dmesg gera vários erros de E/S:
[ 528.586830] I/O error, dev sdd, sector 6400000 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 0
[ 528.586859] I/O error, dev sdd, sector 0 op 0x0:(READ) flags 0x0 phys_seg 32 prio class 0
[ 528.586882] I/O error, dev sdd, sector 2048 op 0x0:(READ) flags 0x0 phys_seg 32 prio class 0
[ 528.586900] I/O error, dev sdd, sector 2203648 op 0x0:(READ) flags 0x0 phys_seg 32 prio class 0
[ 528.586929] I/O error, dev sdd, sector 6397952 op 0x0:(READ) flags 0x0 phys_seg 32 prio class 0
[ 528.587118] device offline error, dev sdd, sector 6400000 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 0
[ 528.587143] device offline error, dev sdd, sector 6400000 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 528.587147] Buffer I/O error on dev dm-2, logical block 0, async page read
[ 528.587161] device offline error, dev sdd, sector 6400000 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 528.587164] Buffer I/O error on dev dm-2, logical block 0, async page read
[ 528.587371] device offline error, dev sdd, sector 216115200 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 0
[ 528.587382] device offline error, dev sdd, sector 216115200 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[ 528.587385] Buffer I/O error on dev dm-3, logical block 0, async page read
[ 528.587395] Buffer I/O error on dev dm-3, logical block 0, async page read
[ 590.357934] Buffer I/O error on dev dm-2, logical block 0, async page read
[ 590.357940] Buffer I/O error on dev dm-2, logical block 0, async page read
[ 590.358065] Buffer I/O error on dev dm-3, logical block 0, async page read
[ 590.358069] Buffer I/O error on dev dm-3, logical block 0, async page read
Então, a unidade parece ser ruim para mim. Você tem alguma ideia ou sugestão? É realmente ruim?
Se o SSD contiver dados críticos, importantes ou insubstituíveis, você deverá substituí-lo o mais rápido possível.
Na verdade, este SSD deveria ter sido substituído há muito, muito tempo. Aqui estão alguns valores SMART importantes que você deve conhecer:
Reallocated_Sector_Ct
Seu disco tem poucos (
8
para ser mais preciso) setores defeituosos (Reallocated_Sector_Ct
):Current_Pending_Sector
Você também tem
11
setores que estão aguardando para serem realocadosCurrent_Pending_Sector
. Estes são sectores que foram identificados como potencialmente problemáticos.Quando a unidade encontra um setor que não consegue ler, ela o marca como “pendente”. A unidade tentará ler esses setores novamente no futuro e:
Se uma tentativa de leitura futura for bem-sucedida, o setor será removido da lista pendente e a contagem de setores pendentes diminuirá.
Se uma tentativa de leitura futura falhar, o setor será realocado para um setor sobressalente e o atributo Reallocated_Sector_Ct aumentará, enquanto a contagem Current_Pending_Sector diminuirá.
Reallocated_Event_Count
Sua unidade
20922
realocou setores.Reallocated_Event_Count
mostra a contagem total de eventos de realocação. Cada evento corresponde a um setor problemático que foi movido (realocado) para uma área reservada na unidade.Available_Reservd_Space
Você está sem setores sobressalentes,
Available_Reservd_Space
mostra0
. Esta é a quantidade de espaço livre no SSD que está disponível para uso quando setores defeituosos são detectados. Este espaço é utilizado para substituir setores que falharam ou estão em processo de falha.