我们有带有 3 台虚拟机的 kafka 集群。,当每台kafka机器都使用sdb磁盘(VMDK磁盘)来存储数据时
在所有机器上我们看到以下内核消息
[1123783.849575] EXT4-fs (sdb): error count since last fsck: 9
[1123783.849582] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1123783.849586] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1210205.709917] EXT4-fs (sdb): error count since last fsck: 9
[1210205.709937] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1210205.709944] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1296627.570121] EXT4-fs (sdb): error count since last fsck: 9
[1296627.570141] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1296627.570147] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1383049.419003] EXT4-fs (sdb): error count since last fsck: 9
[1383049.419019] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1383049.419025] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1469471.269771] EXT4-fs (sdb): error count since last fsck: 9
.
.
.
红帽对此消息的解释如下。(来自案例 - https://access.redhat.com/solutions/383993)
问题
我在 /var/log/messages 中看到以下几行:
kernel: EXT4-fs (sdd1): error count: 5
kernel: EXT4-fs (sdd1): initial error at 1369732760: ext4_lookup:1044: inode 11534366
kernel: EXT4-fs (sdd1): last error at 1369733705: ext4_lookup:1044: inode 11534366
解决方法 这些不是错误,而是信息性消息;然而,他们可能引用了其他可能的历史错误。一旦成功运行 fsck,这些错误计数就应该重置;然而,在 e2fsprogs-1.41.12-18 之前,一个错误阻止了重置。此问题已通过勘误表在 e2fsprogs-1.41.12-18 中得到纠正。
我们在 Kafka 集群上收到的消息与 Redhat 情况几乎没有什么不同
所以我们更担心sdb磁盘,
根据红帽的说法,他们并不那么担心,因为他们解释了这些消息,因为它们是信息性消息
因此,关于我的内核消息,我可以umount
从挂载点读取磁盘并执行以下操作fsck
来修复错误,
但我的问题是我有多少需要担心以下消息:
[1123783.849575] EXT4-fs (sdb): error count since last fsck: 9
[1123783.849582] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1123783.849586] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1210205.709917] EXT4-fs (sdb): error count since last fsck: 9
[1210205.709937] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
很明显,这正是 RedHat 文档所讨论的内容;“初始错误”和“最后一个错误”行只是报告历史错误。确保您的
e2fsprogs
版本比 RedHat 文档中的版本更新,然后fsck
错误就会消失。由于日期代表 2020 年和 2021 年的日期:我想你可以放心地忽略它们。