我正在将一台服务器从 CentOS 7“升级”到 Rocky 8。该服务器是一台 1U Supermicro SYS-1029U-TRT,作为 HPC 的一部分工作,并具有两个以太网和一个 Infiniband 网络接口。其中一个以太网接口用于HPC,另一个用于服务器机房网络和互联网接入。在启动 CentOS 服务器的虚拟机副本后,我开始全新安装 Rocky 8。我重复使用了之前的分区表和 mdadm RAID,它们已配置并格式化了每个分区。安装并初始设置网络接口后,服务器在通过“外部”接口处理任何网络流量时速度异常缓慢。这个问题在 CentOS 下从来不明显,并且有多种症状。
- DNS 查询未完成。当在本地网络上的主机上运行 ping 或尝试通过 curl 或 wget 从 Internet 或本地 Web 服务器下载文件时,这种情况尤其明显。
- 仅使用 IP 来往服务器的 ping 操作要么会失败,要么会在一些(通常是大约 4 个)数据包失败后开始工作。
- 与服务器的 SSH 连接大多会失败,并尝试获取密码提示,但登录从未完成。
我已尝试了许多故障排除步骤,但尚未得到明显的修复。
- 我验证了 IP 设置、路由表和 resolv.conf 均正确。
- 我断开了两个 HPC 网络接口。我还尝试了连接但停用、没有配置的接口以及连接和配置的接口。
- 我验证了以太网驱动程序对于硬件来说是正确的。该系统包括两个 10Gbps Intel X540-AT2 接口,该接口使用内核的 ixgbe 驱动程序。我还下载并安装了最新版本的英特尔驱动程序。
- 我确认交换机端口配置正确,包括 VLAN 和 MTU 设置。
- 我通过与服务器之间的 ping 测试测试了其他两个接口,都没有显示任何问题。
- 我断开了接口与常用交换机的连接,并使用新电缆将其连接到同一 VLAN 上的附近交换机。
这些步骤都没有改变任何事情。我没有想法,正在寻找发生这种情况的进一步可能原因。如果需要任何信息,我很乐意根据要求添加。
安装 CentOS 7 时未报告的先前问题是,有时 SSH 连接会“暂停”长达一分钟,然后才能再次使用。这与当前的问题类似,让我认为这是一个硬件问题。
以下是一些 ip 命令输出、ip a 和 ip Route,以显示如何配置。此外,在 nmtui 中配置时,我在 eno2 和 ib0 连接上启用了“从不使用此网络作为默认路由”、“忽略自动获取的路由”和“忽略自动获取的 DNS 参数”设置。eno1 连接上未启用这些设置。
[root@hostname ~]# ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: eno1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
link/ether ac:1f:6b:c9:b3:6e brd ff:ff:ff:ff:ff:ff
altname enp24s0f0
inet 10.0.21.150/22 brd 10.0.23.255 scope global noprefixroute eno1
valid_lft forever preferred_lft forever
3: eno2: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
link/ether ac:1f:6b:c9:b3:6f brd ff:ff:ff:ff:ff:ff
altname enp24s0f1
inet 10.33.0.110/22 brd 10.33.3.255 scope global noprefixroute eno2
valid_lft forever preferred_lft forever
4: ib0: eno2: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 4092 qdisc mq state UP group default qlen 256
link/infiniband 00:00:01:20:fe:80:00:00:00:00:00:00:0c:42:a1:03:00:c0:af:08 brd 00:ff:ff:ff:ff:12:40:1b:ff:ff:00:00:00:00:00:00:ff:ff:ff:ff
inet 10.33.4.110/22 brd 10.33.7.255 scope global noprefixroute ib0
valid_lft forever preferred_lft forever
[root@hostname ~]# ip route
default via 10.0.20.1 dev eno1 proto static metric 100
10.0.20.0/22 dev eno1 proto kernel scope link src 10.0.21.150 metric 100
10.33.0.0/22 dev eno2 proto kernel scope link src 10.33.0.110 metric 101
10.33.4.0/22 dev ib0 proto kernel scope link src 10.33.4.110 metric 150
Edit1:添加了更多信息,CentOS 问题。
Edit2:添加了请求的 ip 命令输出和一些 nmtui 设置。