在设置动态内存分配时,Linux 内核必须选择一个位置来放置它的堆,不是吗?它如何避免覆盖自己的堆栈,或者避免堆栈增长后覆盖堆?
在 Oracle Linux 9.2 上,使用“rsync”从内存受限的容器或 cgroup 内部通过网络复制文件时,我遇到了性能显著下降的问题。此问题出现在 Red Hat 兼容内核 (RHCK) 5.14.0-284.11.1.el9_2.x86_64 版本上,但在 Unbreakable Enterprise Kernel (UEK) 5.15.0-101.103.2.1.el9uek.x86_64 版本上没有出现。
详细信息:设置:Oracle Linux 9.2,容器/cgroup 有内存限制。问题:当达到内存限制时,网络文件复制速度会急剧下降,尤其是在页面缓存(非活动文件)已满的情况下。测试:
- 使用容器或 cgroup 中的“rsync”从远程源复制数据。
- 使用“pg_basebackup”在两个PG容器(Leader容器和Replica容器)之间进行PostgreSQL数据复制。结果如下:
- 一旦达到内存限制,初始高速(~100MBps)就会显著下降(至~1MBps)。
重现命令:
创建具有内存限制的 cgroup 并运行 rsync:sudo systemd-run --scope --property=MemoryMax=1G rsync -av --progress rsync://<source_ip>/files /destination_path
在缓慢的 rsync 期间在托管操作系统上使用 drop_caches 进行测试:free && sync && echo 3 > /proc/sys/vm/drop_caches && free 缓存被丢弃后,rsync 再次快速运行,直到再次达到 MEM 限制
观察结果:
- 当达到容器的内存限制时,页面缓存(非活动文件)将被填满,从而导致网络带宽下降。
- 例如,这会影响 PostgreSQL 复制,导致延迟和潜在的数据丢失。
还有其他人遇到过这个问题吗?如果您能提供任何关于如何正确解决这个问题(或者可能是变通方法)的见解或建议,我将不胜感激!
当通过分配内存kmalloc
(即类似 的 slab 缓存分配slab_alloc_node
)时,它会返回一个虚拟内存地址。据推测,当访问这个虚拟地址时,相应的 PTE(将虚拟地址转换为物理地址)已经存在,从而可以进行地址转换,因为内核地址不允许页面错误。谁创建了这个 PTE,它是什么时候创建的?
我使用的是 64 位系统,而不是 32 位系统。我知道在 32 位系统中有一个“低内存”区域(通常在 1GiB 以内),并且这个低内存在启动期间会预先映射到物理内存。
但是,我很好奇这在 64 位系统上是如何工作的。根据此 StackOverflow 帖子 ( https://stackoverflow.com/questions/30541036/will-physical-addresses-of-all-paging-structures-in-linux-be-mapped-in-the-page ),它说在 64 位系统上,
“所有物理地址始终与内核一半的地址空间中的 Supervisor 映射进行映射。”
,这里(vmalloc() 在哪些进程的页表中分配新内存?)说
kmalloc 的页表条目已分配。
我想验证这是否属实。我持怀疑态度的原因如下:假设我的机器有 128GiB 的 DRAM,每个 PTE 为 8 字节。那么,仅页表本身就需要 256MiB(128GiB/4KiB * 8Byte)。但是当我在启动后运行 numastat -m 时,PageTable 的大小似乎没有那么大。所以我想知道到底发生了什么。
如何找出自哪个 Linux 版本以来内核 API 函数/宏可用,或者是否发生了重大变化(被删除、参数类型或数量的更改)。
例如,在查看的最新版本时,scatterlist.h
我偶然发现了sg_alloc_table_from_pages_segment
,它具有我的内核模块(驱动程序)所需的功能。然而,令我失望的是,该功能在内核模块开发的 5.10 版本中尚未提供,我必须找到一种解决方法。但我仍然希望支持未来的内核版本,以防我们进行升级。
通常,这种情况是用预处理器隔离来处理的
#if LINUX_VERSION_CODE >= KERNEL_VERSION(...)
/*Version-specific implementation*/
#endif
但为了应用此模式,我需要找到添加该函数的内核版本。手动扫描头文件的所有中间版本将是一项艰巨的任务。
我正在研究一些处理 cpuset 的旧脚本,并将其移植到 openSUSE。这些脚本在 openSUSE 15.5 上运行良好,但现在在 15.6 中它们失败了,因为它们期望的文件不存在。事实上,文件都在那里,但它们的名称中/dev/cpuset
缺少前缀。cpuset.
例如,对于名为 的 cpuset sys
,脚本期望操作/dev/cpuset/sys/cpuset.cpus
,但实际文件似乎名为/dev/cpuset/sys/cpus
。这种模式适用于 openSUSE 15.5(及更早的系统)上所有 13 个以 开头的文件cpuset.
;相同的文件在那里,但没有cpuset.
前缀。
查看docs.kernel.org 的参考页面,cpuset.*
命名就是文档中记录的。知道缺少前缀的文件cpuset.
来自哪里吗?
更多信息:这是 openSUSE Leap 15.5 机器上的完整/dev/cpuset/sys
目录(其中sys
是 cpuset 名称):
devuser@product:/dev/cpuset/sys> ls -al
total 0
drwxr-xr-x 2 root root 0 Feb 18 14:07 .
dr-xr-xr-x 3 root root 0 Feb 18 14:03 ..
-rw-r--r-- 1 root root 0 Feb 18 14:07 cgroup.clone_children
-rw-r--r-- 1 root root 0 Feb 18 14:07 cgroup.procs
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.cpu_exclusive
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.cpus
-r--r--r-- 1 root root 0 Feb 18 14:07 cpuset.effective_cpus
-r--r--r-- 1 root root 0 Feb 18 14:07 cpuset.effective_mems
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.mem_exclusive
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.mem_hardwall
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.memory_migrate
-r--r--r-- 1 root root 0 Feb 18 14:07 cpuset.memory_pressure
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.memory_spread_page
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.memory_spread_slab
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.mems
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.sched_load_balance
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.sched_relax_domain_level
-rw-r--r-- 1 root root 0 Feb 18 14:07 notify_on_release
-rw-r--r-- 1 root root 0 Feb 18 14:07 tasks
devuser@product:/dev/cpuset/sys>
以下是 openSUSE 15.6 机器上的同一目录:
devuser@product:/dev/cpuset/sys> ls -al
total 0
drwxr-xr-x 2 root root 0 Feb 18 11:25 .
dr-xr-xr-x 5 root root 0 Feb 18 11:25 ..
-rw-r--r-- 1 root root 0 Feb 18 11:29 cgroup.clone_children
-rw-r--r-- 1 root root 0 Feb 18 11:29 cgroup.procs
-rw-r--r-- 1 root root 0 Feb 18 11:29 cpu_exclusive
-rw-r--r-- 1 root root 0 Feb 18 11:29 cpus
-r--r--r-- 1 root root 0 Feb 18 11:29 effective_cpus
-r--r--r-- 1 root root 0 Feb 18 11:29 effective_mems
-rw-r--r-- 1 root root 0 Feb 18 11:29 mem_exclusive
-rw-r--r-- 1 root root 0 Feb 18 11:29 mem_hardwall
-rw-r--r-- 1 root root 0 Feb 18 11:29 memory_migrate
-r--r--r-- 1 root root 0 Feb 18 11:29 memory_pressure
-rw-r--r-- 1 root root 0 Feb 18 11:29 memory_spread_page
-rw-r--r-- 1 root root 0 Feb 18 11:29 memory_spread_slab
-rw-r--r-- 1 root root 0 Feb 18 11:29 mems
-rw-r--r-- 1 root root 0 Feb 18 11:29 notify_on_release
-rw-r--r-- 1 root root 0 Feb 18 11:29 sched_load_balance
-rw-r--r-- 1 root root 0 Feb 18 11:29 sched_relax_domain_level
-rw-r--r-- 1 root root 0 Feb 18 12:41 tasks
devuser@product:/dev/cpuset/sys>
因此,文件集完全相同,只是 Leap 15.5cpuset.
在 13 个文件上有前缀,而 Leap 15.6 有相同的文件但被cpuset.
删除了。
编辑:以下是我在 Leap 15.6 系统上创建 cpuset 目录的方法。在刚刚重启的系统上:
devuser@product:~> ls /dev/cpuset
ls: cannot access '/dev/cpuset': No such file or directory
devuser@product:~> sudo mkdir /dev/cpuset
[sudo] password for root:
devuser@product:~> sudo mount -t cpuset none /dev/cpuset
devuser@product:~> sudo mkdir /dev/cpuset/sys
devuser@product:~> ls /dev/cpuset/sys
cgroup.clone_children mem_exclusive mems
cgroup.procs mem_hardwall notify_on_release
cpu_exclusive memory_migrate sched_load_balance
cpus memory_pressure sched_relax_domain_level
effective_cpus memory_spread_page tasks
effective_mems memory_spread_slab
devuser@product:~>
这个问题是这个答案的后续。总的来说,我的目标是了解我的系统(Debian/Raspberry Pi 5“书虫”)是否正在根据系统时间更新我的 RTC/硬件时钟。请注意,RPi 5(与其 Pi 祖先不同)确实有一个内置的RTC/硬件时钟。
以下是我目前能够确定的情况:
1. 我觉得我已经确定系统时钟正在从 hwclock 更新:
$ dmesg | grep "system clock"
[ 1.588793] rpi-rtc soc:rpi_rtc: setting system clock to 2025-02-18T04:59:13 UTC (1739854753)
然而,经过一番搜索dmesg
,我找不到任何迹象表明 hwclock 正在从系统时间更新。不过,我确实找到了对时钟的引用fake-hardware
(这似乎很奇怪)。:
[ 4.037230] systemd[1]: Starting fake-hwclock.service - Restore / save the current clock...
2. 内核显然配置为“双向”进行时钟更新:
$ cat /boot/config-$(uname -r) | grep -i HCTOSYS
CONFIG_RTC_HCTOSYS=y
CONFIG_RTC_HCTOSYS_DEVICE="rtc0"
$ cat /boot/config-$(uname -r) | grep -i SYSTOHC
CONFIG_RTC_SYSTOHC=y
CONFIG_RTC_SYSTOHC_DEVICE="rtc0"
我突然想到内核可能仅在关机期间执行 SYSTOHC 同步,并且可能没有被捕获dmesg
...但这是一个 WAG。
有人能解释一下如何确认内核正在(或未)更新 hwclock/RTC 吗?
我正在将嵌入式 Linux 设备从供应商内核移植到主线。我快完成了,但有一个问题似乎无法解决,那就是 DRM 初始化非常慢。
设置如下:
SOC:imx8mp
内核:6.12
操作系统:Debian 12 bookworm
gpu 似乎在合理的时间初始化:
[ 4.984644] etnaviv etnaviv: bound 38000000.gpu (ops gpu_ops [etnaviv])
[ 5.005189] etnaviv etnaviv: bound 38008000.gpu (ops gpu_ops [etnaviv])
[ 5.038057] etnaviv etnaviv: bound 38500000.npu (ops gpu_ops [etnaviv])
[ 5.048542] etnaviv-gpu 38000000.gpu: model: GC7000, revision: 6204
[ 5.060472] etnaviv-gpu 38008000.gpu: model: GC520, revision: 5341
[ 5.087467] etnaviv-gpu 38500000.npu: model: GC8000, revision: 8002
[ 5.101070] etnaviv-gpu 38500000.npu: etnaviv has been instantiated on a NPU, for which the UAPI is still experimental
[ 5.121842] [drm] Initialized etnaviv 1.4.0 for etnaviv on minor 0
systemd 接管的时间大约为:
[ 2.318927] systemd[1]: systemd 252.33-1~deb12u1 running in system mode (+PAM +AUDIT
+SELINUX +APPARMOR +IMA +SMACK +SECCOMP +GCRYPT -GNUTLS +OPENSSL +ACL +BLKID +CURL
+ELFUTILS +FIDO2 +IDN2 -IDN +IPTC +KMOD +LIBCRYPTSETUP +LIBFDISK +PCRE2 -PWQUALITY +P11KIT
+QRENCODE +TPM2 +BZIP2 +LZ4 +XZ +ZLIB +ZSTD -BPF_FRAMEWORK -XKBCOMMON +UTMP +SYSVINIT
default-hierarchy=unified)
但随后还有第二轮 DRM 初始化,实际上启用了显示流:
[ 6.904837] imx-dwmac 30bf0000.ethernet end0: Register MEM_TYPE_PAGE_POOL RxQ-0
[ 6.971593] imx-dwmac 30bf0000.ethernet end0: PHY [stmmac-0:00] driver [SMSC LAN8710/LAN8720] (irq=147)
[ 6.987060] imx-dwmac 30bf0000.ethernet end0: No Safety Features support found
[ 6.994331] imx-dwmac 30bf0000.ethernet end0: IEEE 1588-2008 Advanced Timestamp supported
[ 7.002765] imx-dwmac 30bf0000.ethernet end0: registered PTP clock
[ 7.009583] imx-dwmac 30bf0000.ethernet end0: configuring for phy/rmii link mode
[ 8.601862] imx-dwmac 30bf0000.ethernet end0: Link is Up - 100Mbps/Full - flow control rx/tx
[ 15.334021] samsung-dsim 32e60000.dsi: supply vddcore not found, using dummy regulator
[ 15.343694] samsung-dsim 32e60000.dsi: supply vddio not found, using dummy regulator
[ 15.365379] samsung-dsim 32e60000.dsi: [drm:samsung_dsim_host_attach [samsung_dsim]] Attached sn65dsi83 device (lanes:4 bpp:24 mode-flags:0x2e3)
[ 15.380621] [drm] Initialized imx-lcdif 1.0.0 for 32e80000.display-controller on minor 1
[ 15.522131] Console: switching to colour frame buffer device 240x45
[ 15.555056] imx-lcdif 32e80000.display-controller: [drm] fb0: imx-lcdifdrmfb frame buffer device
[ 15.592315] dw100 32e30000.dwe: dw100 v4l2 m2m registered as /dev/video0
[ 15.601817] hantro-vpu 38300000.video-codec: registered nxp,imx8mm-vpu-g1-dec as /dev/video1
[ 15.611540] hantro-vpu 38310000.video-codec: registered nxp,imx8mq-vpu-g2-dec as /dev/video2
这两轮初始化之间仅有 10 秒的随机间隙,我不明白为什么。
systemd 分析:
systemd-analyze
Startup finished in 2.034s (kernel) + 4.558s (userspace) = 6.592s
graphical.target reached after 4.450s in userspace.
提前感谢你的帮助!
由于官方的 NVIDIA 391.xx 驱动程序不支持 Linux 6.x,我被迫使用 noveau,但性能非常差。是否有适用于较新 Linux 内核的这些驱动程序的非官方版本?提前感谢您的回复。
我读过你不应该在中断处理程序中使用阻塞系统调用。
对于单处理器系统,这是有道理的,但是对于多处理器系统,这样的阻塞操作真的会阻塞整个系统吗?还是只阻塞它所运行的处理器?
因此,我目前正在学习如何编写内核模块/设备驱动程序,并正在研究以下实现unregister_chrdev_region
:
https://elixir.bootlin.com/linux/v6.12/source/fs/char_dev.c#L311
/**
* unregister_chrdev_region() - unregister a range of device numbers
* @from: the first in the range of numbers to unregister
* @count: the number of device numbers to unregister
*
* This function will unregister a range of @count device numbers,
* starting with @from. The caller should normally be the one who
* allocated those numbers in the first place...
*/
void unregister_chrdev_region(dev_t from, unsigned count)
{
dev_t to = from + count;
dev_t n, next;
for (n = from; n < to; n = next) {
next = MKDEV(MAJOR(n)+1, 0);
if (next > to)
next = to;
kfree(__unregister_chrdev_region(MAJOR(n), MINOR(n), next - n));
}
}
我不明白的是这一行的检查:
https://elixir.bootlin.com/linux/v6.12/source/fs/char_dev.c#L318
if (next > to) next = to;
据我所知,当循环变量等于上限时,循环已经中断to = from + count
。什么时候我们会遇到条件的情况if (next > to)
?这个条件检查的原因是什么?