aqui está um exemplo da dmesg
saída de um servidor de produção importante ( RHEL 7.2 - DELL machine HW ), pois podemos ver que o sde
disco no servidor está morrendo
[Wed Jun 30 11:24:58 2021] sd 0:2:4:0: [sde] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[Wed Jun 30 11:26:18 2021] sd 0:2:4:0: [sde] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[Wed Jun 30 11:26:18 2021] sd 0:2:4:0: [sde] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[Wed Jun 30 11:27:28 2021] sd 0:2:4:0: [sde] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[Wed Jun 30 11:27:46 2021] sd 0:2:4:0: [sde] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
o que é interessante é que essas mensagens são antigas de 2021
, e não vimos essas mensagens em2022/2023
com base nesses fatos, gostaria de perguntar se a substituição do disco deve ser considerada com base em mensagens de disco com defeito de2021
segunda questão importante, é como capturar novas mensagens frescas do kernel pordmesg
é possível recriar novas mensagens frescas do kernel?
como eu sei, talvez a reinicialização da máquina possa ajudar sobre isso, mas quero evitar a reinicialização da máquina
dmesg
por padrão, imprime as mensagens do buffer de anel do kernel.Um buffer de anel é um tipo especial de buffer que sempre tem um tamanho constante, removendo as mensagens mais antigas quando novas mensagens são recebidas, ele é instanciado recentemente na inicialização do sistema, então o que você está vendo já são as mensagens mais recentes do kernel disponíveis.
Quando hoje você vê mensagens de quase dois anos atrás, em combinação com um legado RHEL versão 7.2, a primeira coisa que vem à mente é: você não executou nenhuma reinicialização por quase dois anos e aparentemente não fez nenhuma manutenção naquele servidor por mais tempo ainda!
Se o seu servidor for realmente do final de 2015 - início de 2026 (o que a versão do RHEL sugere), antes de mais nada, eu começaria verificando a integridade de seus backups, seu procedimento de restauração e plano de recuperação de desastres e possivelmente começaria a planejar uma substituição e atualização .
Se você deseja verificar a integridade do disco em um sistema ativo: tente ler os dados SMART e/ou iniciar um autoteste inteligente com
smartctl
Para ver uma estimativa de quanto tempo os vários autotestes suportados levarão:
E, por exemplo, inicie um pequeno teste: