[58306.633900] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[58306.633905] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
[58306.633907] {1}[Hardware Error]: event severity: corrected
[58306.633909] {1}[Hardware Error]: Error 0, type: corrected
[58306.633911] {1}[Hardware Error]: fru_text: CorrectedErr
[58306.633912] {1}[Hardware Error]: section_type: memory error
[58306.633914] {1}[Hardware Error]: node: 0 device: 44696
[58306.633916] {1}[Hardware Error]: error_type: 2, single-bit ECC
Isso apareceu no meu servidor Debian Xeon com ECC RAM , isso significa que os módulos de RAM estão morrendo ou algo mais como um erro causado por SW, por exemplo? Eu vi algum outro post alegando que seu sistema operacional foi reiniciado, enquanto o meu não, e é por isso que estou perguntando. Obrigada.
Erros de memória ECC são sempre erros de hardware, não erros de software. Isso não significa que eles indicam falha de hardware, eles podem ser causados por inversões aleatórias de bits. ( O artigo de 2009 do Google sobre o assunto fornece informações interessantes ; suas citações podem fornecer análises mais recentes.)
As inversões de bits de hardware podem ser acionadas por software, por exemplo , em ataques Rowhammer .
A menos que os erros de ECC se tornem frequentes ou você comece a ver erros de ECC incorrigíveis, eu não me preocuparia com isso.