在 Oracle Linux 9.2 上,使用“rsync”从内存受限的容器或 cgroup 内部通过网络复制文件时,我遇到了性能显著下降的问题。此问题出现在 Red Hat 兼容内核 (RHCK) 5.14.0-284.11.1.el9_2.x86_64 版本上,但在 Unbreakable Enterprise Kernel (UEK) 5.15.0-101.103.2.1.el9uek.x86_64 版本上没有出现。
详细信息:设置:Oracle Linux 9.2,容器/cgroup 有内存限制。问题:当达到内存限制时,网络文件复制速度会急剧下降,尤其是在页面缓存(非活动文件)已满的情况下。测试:
- 使用容器或 cgroup 中的“rsync”从远程源复制数据。
- 使用“pg_basebackup”在两个PG容器(Leader容器和Replica容器)之间进行PostgreSQL数据复制。结果如下:
- 一旦达到内存限制,初始高速(~100MBps)就会显著下降(至~1MBps)。
重现命令:
创建具有内存限制的 cgroup 并运行 rsync:sudo systemd-run --scope --property=MemoryMax=1G rsync -av --progress rsync://<source_ip>/files /destination_path
在缓慢的 rsync 期间在托管操作系统上使用 drop_caches 进行测试:free && sync && echo 3 > /proc/sys/vm/drop_caches && free 缓存被丢弃后,rsync 再次快速运行,直到再次达到 MEM 限制
观察结果:
- 当达到容器的内存限制时,页面缓存(非活动文件)将被填满,从而导致网络带宽下降。
- 例如,这会影响 PostgreSQL 复制,导致延迟和潜在的数据丢失。
还有其他人遇到过这个问题吗?如果您能提供任何关于如何正确解决这个问题(或者可能是变通方法)的见解或建议,我将不胜感激!
我将在这里回答我自己的问题:看起来它是 Oracle Linux(OL)9.2 RHCK 内核“kernel-5.14.0-284.11.1”中的一个错误(参见表格:https ://docs.oracle.com/en/operating-systems/oracle-linux/9/boot/oracle_linux9_kernel_version_matrix.html )
切换到相同 OL 版本 (9.2) 的 UEK 内核解决了该问题,但某些软件 (例如 Vertica DB) 不支持 UEK,因此我尝试了 RHCK 内核更新:只有 OL9.4 (kernel-5.14.0-427) 和 OL9.5 (kernel-5.14.0-503.11.1) 的内核及其依赖项 - 均解决了该问题,但需要注意的是:使用 OL9.5 的 RHCK 更新疑似存在一些硬件兼容性问题(正在调查中)。更多详细信息请参见: https: //www.linuxquestions.org/questions/linux-containers-122/performance-degradation-with-rsync-in-container-or-cgroupv2-with-mem-limit-on-oracle-linux-9-2-rhck-5-14-vs-uek-5-15-a-4175749063/