我们在 RHEL 8.6 Linux 服务器上使用了 15TB 的磁盘。这些磁盘用于 HDFS 文件系统。与其他 4TB 或 8TB 磁盘相比,我们注意到数据节点的日志性能有所下降。为了了解使用 4TB 或 8TB 磁盘的 Hadoop 集群与使用 16TB 磁盘的较新 Hadoop 集群之间的区别,我们进行了许多检查。在 Google 上搜索后,我们发现磁盘上创建的文件系统是 ext4。我想知道 ext4 能否用于 15TB 这样的大磁盘。所以我的问题是:ext4 是否支持 15TB 这样的超大磁盘?或者在 15TB 的磁盘上使用 XFS 是否更好?
首先,我的服务器上没有使用 IPv6,并且 IPv6 已被禁用。
但是,如果我运行firewall-cmd --list-all-policies
,我可以看到有一个名为的默认策略allow-host-ipv6
。
它到底起什么作用?我也不知道这个策略是怎么来的。我确定这个/etc/firewalld/policies/
目录是空的。我该怎么把它删掉?
# firewall-cmd --list-all-policies
allow-host-ipv6 (active)
priority: -15000
target: CONTINUE
ingress-zones: ANY
egress-zones: HOST
services:
ports:
protocols:
masquerade: no
forward-ports:
source-ports:
icmp-blocks:
rich rules:
rule family="ipv6" icmp-type name="neighbour-advertisement" accept
rule family="ipv6" icmp-type name="neighbour-solicitation" accept
rule family="ipv6" icmp-type name="router-advertisement" accept
rule family="ipv6" icmp-type name="redirect" accept
我在 Redhat 7.9 上没有 iotop、atop 或任何非 Redhat 工具。
有没有办法调查哪个进程正在消耗所有硬盘访问权限?
我没有安装 gnome,因此无法使用 gnome 提供的监视工具。我只使用 ssh 和命令行工具。
使用 SAR 我检测到硬盘 SDA 99% 繁忙,但我不知道原因。
我有一个注册的 RHEL9 VM,最近我通过从最新的 Veeam 备份恢复克隆了它的副本。
然后我更改了 IP、网关、/etc/hosts
文件并重新生成/etc/machine-id
文件(也/var/lib/dbus/machine-id
)
然后我在两台虚拟机上执行了subscription-manager unregister
和subscription-manager clean
。我还登录了 Redhat Hybrid Cloud Console 的 Web 控制台,检查没有注册相关系统。
然后我subscrption-manager register
对两个虚拟机都执行了此操作,并期望 Redhat 混合云控制台上会有两个新条目。但是,我发现始终只有一个条目,并且虚拟机似乎在互相覆盖。
我已经检查过它们有两个不同的 IP、机器 ID 和订阅管理器身份,但当我尝试注册两者时,Redhat 似乎仍将它们视为同一个系统。
我的问题是这种行为的可能原因是什么以及如何正确解决它?
2025-01-06 快速更新:
按照建议的答案,我尝试更新 MAC 地址,但 Redhat 似乎仍然无法分辨它们是两个不同的虚拟机。以下是我当前对原始虚拟机和恢复的虚拟机的配置。
- 原始虚拟机:
IP 和 MAC 地址
/etc/machine-id 和 /var/lib/dbus/machine-id
订阅管理者身份
- 已还原的虚拟机:
IP 和 MAC 地址
/etc/machine-id 和 /var/lib/dbus/machine-id
订阅管理者身份
我有一台 RHEL 7.9 服务器。我正在尝试创建一个名为 sysadmin 的本地帐户。我运行了
useradd sysadmin
usermod -aG wheel sysadmin
passwd sysadmin
当我查看时,/home
我看到了 sysadmin 文件夹,但它有不同的所有者。所有者是一个不相关的服务帐户。如果我运行chown sysadmin:sysadmin
,它不会更改所有者,它保持相同的服务帐户。我在安全或消息中没有看到任何相关日志。没有/var/log/auth.log
或 syslog 文件。有人见过这种行为吗?
我想了解 systemd-journald 和 rsyslog 如何协同工作。日志是否存储在 /var/logs 中?
du -h /var/log/journal/
满足我的需要吗?
dnf
使用 Leapp 实用程序将某些服务器从 RHEL8 升级到 RHEL9 后,升级后会出现一些警告rpm
:警告:不支持签名。哈希算法 SHA1 不可用。
每次运行任何这些命令时,我都会收到以下警告:
[root@web ~]# rpm -q kernel
warning: Signature not supported. Hash algorithm SHA1 not available.
warning: Signature not supported. Hash algorithm SHA1 not available.
kernel-5.14.0-362.18.1.el9_3.x86_64
kernel-5.14.0-427.18.1.el9_4.x86_64
kernel-5.14.0-427.20.1.el9_4.x86_64
[root@web ~]# dnf repolist
warning: Signature not supported. Hash algorithm SHA1 not available.
warning: Signature not supported. Hash algorithm SHA1 not available.
Updating Subscription Management repositories.
repo id repo name
rhel-9-for-x86_64-appstream-rpms Red Hat Enterprise Linux 9 for x86_64 - AppStream (RPMs)
rhel-9-for-x86_64-baseos-rpms Red Hat Enterprise Linux 9 for x86_64 - BaseOS (RPMs)
我不知道哪个软件包或什么触发了这个问题。网络上提供的大部分解决方案都涉及重新启用 SHA1,但这并不是有效的解决方案。
el9
除某些软件包外,所有软件包均带有标签gpg-pubkey
,因此我认为 RHEL9 中没有任何内容。
[root@web ~]# rpm -qa | grep -v el9
warning: Signature not supported. Hash algorithm SHA1 not available.
warning: Signature not supported. Hash algorithm SHA1 not available.
gpg-pubkey-fd431d51-4ae0493b
gpg-pubkey-a14fe591-578876fd
gpg-pubkey-d4082792-5b32db75
我如何才能追踪真正的问题以摆脱这些警告?
我们有 8 台 Cisco 服务器,其中 12 个用于数据的旋转磁盘和 2 个用于操作系统的 SSD。这 2 个 SSD 位于 Linux 软件 raid 1 中。这些 SSD 的磨损指示器均为个位数,其中一些达到 1 的值已发生故障。我正在将它们全部从备件中更换(这是一个漫长而烦人的过程),但我注意到磨损指标每周下降 1% 或 2%(我没有进行精确测量)。这些服务器上运行着一个应用程序,供应商给了我一些模糊的想法,但我确实需要找到它正在写入的目录。这样我就可以真正突出问题并敦促供应商进行修复。我搜索了一些,但没能找到太多。例如,iotop 显示完整磁盘吞吐量,包括 12 个旋转磁盘。操作系统是Redhat 7.9
回答一些问题:
- 磁盘为“480GB 2.5 英寸企业价值 6Gb SATA SSD”
- 产品 ID 为“UCS-SD480GBKS4-EB”
- 2018 年服务器标配磁盘
- 最近磨损似乎加速了(我现在正在记录磨损情况,所以几天后就会有更好的答案)
- 我已经用几年后购买的相同磁盘替换了大多数磁盘。
- iotop 显示稳定的 8MB/s 写入速度。
- 该系统在 8 台服务器上运行 hadoop。hadoop 文件系统位于旋转磁盘上,因此不应接触 SSD
- 根据供应商的建议,我已经大大减少了磁盘 IO,尽管它看起来仍然很高(8MB/s)
我们正在运行 Rocky Linux 8.9(本质上是 RHEL 8.9)商店,我的任务是调查通过 NFS 挂载的文件系统上的 ACL。我们也使用 FreeIPA/IdM。
我已经设置了一台测试机器,将其注册到 IdM,导出 NFS 共享,并将其安装在本地,但 ACL 部分似乎缺少:
[root@example ~]# cat /etc/exports
/export/ *(rw,acl,no_root_squash)
[root@example ~]# mount | grep /export
localhost:/export on /mnt type nfs4 (rw,relatime,vers=4.2,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp6,timeo=600,retrans=2,sec=sys,clientaddr=::1,local_lock=none,addr=::1)
[root@example ~]# cd /mnt/
[root@example mnt]# touch testfile
[root@example mnt]# getfacl testfile
# file: testfile
# owner: root
# group: root
user::rw-
group::r--
other::r--
[root@example mnt]# setfacl -m u:user:r testfile
setfacl: testfile: Operation not supported
有几个问题:
- 由于客户端和服务器都是 Linux/POSIX ,我应该使用
getfacl
andsetfacl
而不是 nfs4_ 等效项,这是否正确理解? - 我需要 idmapd 吗?我有一个名为 nfs-idmapd 的服务成功运行。
- 我读到安装时
sec=sys
应该替换的地方。seckrb5
更新:
我进行了更多研究,并取得了一个小小的突破:nfsv4_set*acl
只要使用数字 UID 或 GID,NFS 共享就可以正常工作。造成问题的是 IdM/Kerberos 的耦合。
我有一台 7.9 Redhat 服务器,大约有 30 个用户、64 个内核和 512 Go RAM。我有几个僵尸进程,我不知道用户到底是什么创建了这些进程,但我在阅读互联网上的内容后有一种感觉,当他们的会话被终止时,它将杀死所有僵尸进程,因为“父”进程将被终止。
所以让我们想象一下,如果一个用户在其会话期间创建大约 30 个僵尸进程,那么最多可以有 900 个僵尸进程,这只是一个近似值,因为一个用户的会话持续时间越长,僵尸进程数就越高。我是否需要监控这个数字以避免服务器崩溃或类似的情况?
我知道僵尸进程不占用任何资源(RAM、CPU 等),但这也是该值不能高于限制的证据......
我还知道有时用户会断开连接,然后清理僵尸进程,因此僵尸进程的数量可能会减少......