temos cluster kafka com 3 máquinas VM. , quando cada máquina kafka usa o disco sdb (disco VMDK) para armazenar os dados
em todas as máquinas vimos as seguintes mensagens do kernel
[1123783.849575] EXT4-fs (sdb): error count since last fsck: 9
[1123783.849582] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1123783.849586] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1210205.709917] EXT4-fs (sdb): error count since last fsck: 9
[1210205.709937] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1210205.709944] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1296627.570121] EXT4-fs (sdb): error count since last fsck: 9
[1296627.570141] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1296627.570147] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1383049.419003] EXT4-fs (sdb): error count since last fsck: 9
[1383049.419019] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1383049.419025] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1469471.269771] EXT4-fs (sdb): error count since last fsck: 9
.
.
.
Red Hat explica essas mensagens da seguinte forma. (do caso - https://access.redhat.com/solutions/383993 )
Emitir
Vejo as seguintes linhas em /var/log/messages:
kernel: EXT4-fs (sdd1): error count: 5
kernel: EXT4-fs (sdd1): initial error at 1369732760: ext4_lookup:1044: inode 11534366
kernel: EXT4-fs (sdd1): last error at 1369733705: ext4_lookup:1044: inode 11534366
Resolução Não são erros, são mensagens informativas; no entanto, eles podem estar fazendo referência a outros possíveis erros históricos. Essas contagens de erros devem ser redefinidas assim que um fsck for executado com sucesso; entretanto, antes do e2fsprogs-1.41.12-18, um bug impedia a redefinição. Isso foi corrigido em e2fsprogs-1.41.12-18 via errata.
as mensagens que recebemos em nosso cluster Kafka são um pouco diferentes do caso redhat
então estamos mais preocupados com os discos sdb,
pelo que o chapéu vermelho diz, eles não se preocupam porque as mensagens são explicadas como mensagens informativas
então, sobre minhas mensagens do kernel, posso fazer umount
o disco do ponto de montagem fsck
para corrigir os Erros,
mas minha dúvida é o quanto preciso me preocupar com as seguintes mensagens:
[1123783.849575] EXT4-fs (sdb): error count since last fsck: 9
[1123783.849582] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1123783.849586] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1210205.709917] EXT4-fs (sdb): error count since last fsck: 9
[1210205.709937] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
Parece bastante óbvio que é exatamente disso que o documento RedHat está falando; as linhas "erro inicial" e "último erro" simplesmente relatam os erros históricos. Certifique-se de que sua
e2fsprogs
versão seja mais recente que a do documento RedHat, entãofsck
, e os erros devem desaparecer. Como as datas representam datas em 2020 e 2021:você pode ignorá-los com segurança, eu acho.