关于【linux-kernel】的问题- 第1页

CocytusDEDI

Asked: 2025-04-03 18:16:23 +0800 CST

Linux 内核如何知道将其堆放在哪里？

6

在设置动态内存分配时，Linux 内核必须选择一个位置来放置它的堆，不是吗？它如何避免覆盖自己的堆栈，或者避免堆栈增长后覆盖堆？

ALZ

Asked: 2025-03-26 19:48:36 +0800 CST

容器或 cgroupv2 中 rsync 的性能因 MEM 限制而下降

6

在 Oracle Linux 9.2 上，使用“rsync”从内存受限的容器或 cgroup 内部通过网络复制文件时，我遇到了性能显著下降的问题。此问题出现在 Red Hat 兼容内核 (RHCK) 5.14.0-284.11.1.el9_2.x86_64 版本上，但在 Unbreakable Enterprise Kernel (UEK) 5.15.0-101.103.2.1.el9uek.x86_64 版本上没有出现。

详细信息：设置：Oracle Linux 9.2，容器/cgroup 有内存限制。问题：当达到内存限制时，网络文件复制速度会急剧下降，尤其是在页面缓存（非活动文件）已满的情况下。测试：

使用容器或 cgroup 中的“rsync”从远程源复制数据。
使用“pg_basebackup”在两个PG容器（Leader容器和Replica容器）之间进行PostgreSQL数据复制。结果如下：
一旦达到内存限制，初始高速（~100MBps）就会显著下降（至~1MBps）。

重现命令：

创建具有内存限制的 cgroup 并运行 rsync：sudo systemd-run --scope --property=MemoryMax=1G rsync -av --progress rsync://<source_ip>/files /destination_path
在缓慢的 rsync 期间在托管操作系统上使用 drop_caches 进行测试：free && sync && echo 3 > /proc/sys/vm/drop_caches && free 缓存被丢弃后，rsync 再次快速运行，直到再次达到 MEM 限制

观察结果：

当达到容器的内存限制时，页面缓存（非活动文件）将被填满，从而导致网络带宽下降。
例如，这会影响 PostgreSQL 复制，导致延迟和潜在的数据丢失。

还有其他人遇到过这个问题吗？如果您能提供任何关于如何正确解决这个问题（或者可能是变通方法）的见解或建议，我将不胜感激！

Doodu

Asked: 2025-03-25 10:46:20 +0800 CST

当使用 kmalloc 分配内存时，是否会返回已经建立的 PTE（页表条目）的虚拟内存地址？

5

当通过分配内存kmalloc（即类似的 slab 缓存分配slab_alloc_node）时，它会返回一个虚拟内存地址。据推测，当访问这个虚拟地址时，相应的 PTE（将虚拟地址转换为物理地址）已经存在，从而可以进行地址转换，因为内核地址不允许页面错误。谁创建了这个 PTE，它是什么时候创建的？

我使用的是 64 位系统，而不是 32 位系统。我知道在 32 位系统中有一个“低内存”区域（通常在 1GiB 以内），并且这个低内存在启动期间会预先映射到物理内存。

但是，我很好奇这在 64 位系统上是如何工作的。根据此 StackOverflow 帖子 ( https://stackoverflow.com/questions/30541036/will-physical-addresses-of-all-paging-structures-in-linux-be-mapped-in-the-page )，它说在 64 位系统上，

“所有物理地址始终与内核一半的地址空间中的 Supervisor 映射进行映射。”

，这里（vmalloc() 在哪些进程的页表中分配新内存？）说

kmalloc 的页表条目已分配。

我想验证这是否属实。我持怀疑态度的原因如下：假设我的机器有 128GiB 的 DRAM，每个 PTE 为 8 字节。那么，仅页表本身就需要 256MiB（128GiB/4KiB * 8Byte）。但是当我在启动后运行 numastat -m 时，PageTable 的大小似乎没有那么大。所以我想知道到底发生了什么。

Andrey Pro

Asked: 2025-03-09 05:52:39 +0800 CST

如何找出 API 更改的 Linux 内核版本？

7

如何找出自哪个 Linux 版本以来内核 API 函数/宏可用，或者是否发生了重大变化（被删除、参数类型或数量的更改）。

例如，在查看的最新版本时，scatterlist.h我偶然发现了sg_alloc_table_from_pages_segment，它具有我的内核模块（驱动程序）所需的功能。然而，令我失望的是，该功能在内核模块开发的 5.10 版本中尚未提供，我必须找到一种解决方法。但我仍然希望支持未来的内核版本，以防我们进行升级。

通常，这种情况是用预处理器隔离来处理的

#if LINUX_VERSION_CODE >= KERNEL_VERSION(...)
/*Version-specific implementation*/
#endif

但为了应用此模式，我需要找到添加该函数的内核版本。手动扫描头文件的所有中间版本将是一项艰巨的任务。

Daniel Griscom

Asked: 2025-02-19 04:14:29 +0800 CST

/dev/cpuset 中的文件已重命名？

5

我正在研究一些处理 cpuset 的旧脚本，并将其移植到 openSUSE。这些脚本在 openSUSE 15.5 上运行良好，但现在在 15.6 中它们失败了，因为它们期望的文件不存在。事实上，文件都在那里，但它们的名称中/dev/cpuset缺少前缀。cpuset.

例如，对于名为的 cpuset sys，脚本期望操作/dev/cpuset/sys/cpuset.cpus，但实际文件似乎名为/dev/cpuset/sys/cpus。这种模式适用于 openSUSE 15.5（及更早的系统）上所有 13 个以开头的文件cpuset.；相同的文件在那里，但没有cpuset.前缀。

查看docs.kernel.org 的参考页面，cpuset.*命名就是文档中记录的。知道缺少前缀的文件cpuset.来自哪里吗？

更多信息：这是 openSUSE Leap 15.5 机器上的完整/dev/cpuset/sys目录（其中sys是 cpuset 名称）：

devuser@product:/dev/cpuset/sys> ls -al
total 0
drwxr-xr-x 2 root root 0 Feb 18 14:07 .
dr-xr-xr-x 3 root root 0 Feb 18 14:03 ..
-rw-r--r-- 1 root root 0 Feb 18 14:07 cgroup.clone_children
-rw-r--r-- 1 root root 0 Feb 18 14:07 cgroup.procs
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.cpu_exclusive
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.cpus
-r--r--r-- 1 root root 0 Feb 18 14:07 cpuset.effective_cpus
-r--r--r-- 1 root root 0 Feb 18 14:07 cpuset.effective_mems
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.mem_exclusive
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.mem_hardwall
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.memory_migrate
-r--r--r-- 1 root root 0 Feb 18 14:07 cpuset.memory_pressure
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.memory_spread_page
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.memory_spread_slab
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.mems
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.sched_load_balance
-rw-r--r-- 1 root root 0 Feb 18 14:07 cpuset.sched_relax_domain_level
-rw-r--r-- 1 root root 0 Feb 18 14:07 notify_on_release
-rw-r--r-- 1 root root 0 Feb 18 14:07 tasks
devuser@product:/dev/cpuset/sys>

以下是 openSUSE 15.6 机器上的同一目录：

devuser@product:/dev/cpuset/sys> ls -al
total 0
drwxr-xr-x 2 root root 0 Feb 18 11:25 .
dr-xr-xr-x 5 root root 0 Feb 18 11:25 ..
-rw-r--r-- 1 root root 0 Feb 18 11:29 cgroup.clone_children
-rw-r--r-- 1 root root 0 Feb 18 11:29 cgroup.procs
-rw-r--r-- 1 root root 0 Feb 18 11:29 cpu_exclusive
-rw-r--r-- 1 root root 0 Feb 18 11:29 cpus
-r--r--r-- 1 root root 0 Feb 18 11:29 effective_cpus
-r--r--r-- 1 root root 0 Feb 18 11:29 effective_mems
-rw-r--r-- 1 root root 0 Feb 18 11:29 mem_exclusive
-rw-r--r-- 1 root root 0 Feb 18 11:29 mem_hardwall
-rw-r--r-- 1 root root 0 Feb 18 11:29 memory_migrate
-r--r--r-- 1 root root 0 Feb 18 11:29 memory_pressure
-rw-r--r-- 1 root root 0 Feb 18 11:29 memory_spread_page
-rw-r--r-- 1 root root 0 Feb 18 11:29 memory_spread_slab
-rw-r--r-- 1 root root 0 Feb 18 11:29 mems
-rw-r--r-- 1 root root 0 Feb 18 11:29 notify_on_release
-rw-r--r-- 1 root root 0 Feb 18 11:29 sched_load_balance
-rw-r--r-- 1 root root 0 Feb 18 11:29 sched_relax_domain_level
-rw-r--r-- 1 root root 0 Feb 18 12:41 tasks
devuser@product:/dev/cpuset/sys>

因此，文件集完全相同，只是 Leap 15.5cpuset.在 13 个文件上有前缀，而 Leap 15.6 有相同的文件但被cpuset.删除了。

编辑：以下是我在 Leap 15.6 系统上创建 cpuset 目录的方法。在刚刚重启的系统上：

devuser@product:~> ls /dev/cpuset
ls: cannot access '/dev/cpuset': No such file or directory
devuser@product:~> sudo mkdir /dev/cpuset
[sudo] password for root: 
devuser@product:~> sudo mount -t cpuset none /dev/cpuset
devuser@product:~> sudo mkdir /dev/cpuset/sys
devuser@product:~> ls /dev/cpuset/sys
cgroup.clone_children  mem_exclusive       mems
cgroup.procs           mem_hardwall        notify_on_release
cpu_exclusive          memory_migrate      sched_load_balance
cpus                   memory_pressure     sched_relax_domain_level
effective_cpus         memory_spread_page  tasks
effective_mems         memory_spread_slab
devuser@product:~>

Seamus

Asked: 2025-02-18 13:53:11 +0800 CST

如何确认内核是否正在更新 hwclock/RTC

5

这个问题是这个答案的后续。总的来说，我的目标是了解我的系统（Debian/Raspberry Pi 5“书虫”）是否正在根据系统时间更新我的 RTC/硬件时钟。请注意，RPi 5（与其 Pi 祖先不同）确实有一个内置的RTC/硬件时钟。

以下是我目前能够确定的情况：

1. 我觉得我已经确定系统时钟正在从 hwclock 更新：

$ dmesg | grep "system clock" 

[    1.588793] rpi-rtc soc:rpi_rtc: setting system clock to 2025-02-18T04:59:13 UTC (1739854753)

然而，经过一番搜索dmesg，我找不到任何迹象表明 hwclock 正在从系统时间更新。不过，我确实找到了对时钟的引用fake-hardware（这似乎很奇怪）。：

[    4.037230] systemd[1]: Starting fake-hwclock.service - Restore / save the current clock...

2. 内核显然配置为“双向”进行时钟更新：

$ cat /boot/config-$(uname -r) | grep -i HCTOSYS
CONFIG_RTC_HCTOSYS=y
CONFIG_RTC_HCTOSYS_DEVICE="rtc0"  

$ cat /boot/config-$(uname -r) | grep -i SYSTOHC
CONFIG_RTC_SYSTOHC=y
CONFIG_RTC_SYSTOHC_DEVICE="rtc0"

我突然想到内核可能仅在关机期间执行 SYSTOHC 同步，并且可能没有被捕获dmesg...但这是一个 WAG。

有人能解释一下如何确认内核正在（或未）更新 hwclock/RTC 吗？

owndampu

Asked: 2025-01-30 17:20:57 +0800 CST

DRM 初始化很晚

5

我正在将嵌入式 Linux 设备从供应商内核移植到主线。我快完成了，但有一个问题似乎无法解决，那就是 DRM 初始化非常慢。

设置如下：
SOC：imx8mp
内核：6.12
操作系统：Debian 12 bookworm

gpu 似乎在合理的时间初始化：

[    4.984644] etnaviv etnaviv: bound 38000000.gpu (ops gpu_ops [etnaviv])
[    5.005189] etnaviv etnaviv: bound 38008000.gpu (ops gpu_ops [etnaviv])
[    5.038057] etnaviv etnaviv: bound 38500000.npu (ops gpu_ops [etnaviv])
[    5.048542] etnaviv-gpu 38000000.gpu: model: GC7000, revision: 6204
[    5.060472] etnaviv-gpu 38008000.gpu: model: GC520, revision: 5341
[    5.087467] etnaviv-gpu 38500000.npu: model: GC8000, revision: 8002
[    5.101070] etnaviv-gpu 38500000.npu: etnaviv has been instantiated on a NPU, for which the UAPI is still experimental
[    5.121842] [drm] Initialized etnaviv 1.4.0 for etnaviv on minor 0

systemd 接管的时间大约为：

[    2.318927] systemd[1]: systemd 252.33-1~deb12u1 running in system mode (+PAM +AUDIT
+SELINUX +APPARMOR +IMA +SMACK +SECCOMP +GCRYPT -GNUTLS +OPENSSL +ACL +BLKID +CURL
+ELFUTILS +FIDO2 +IDN2 -IDN +IPTC +KMOD +LIBCRYPTSETUP +LIBFDISK +PCRE2 -PWQUALITY +P11KIT
+QRENCODE +TPM2 +BZIP2 +LZ4 +XZ +ZLIB +ZSTD -BPF_FRAMEWORK -XKBCOMMON +UTMP +SYSVINIT
default-hierarchy=unified)

但随后还有第二轮 DRM 初始化，实际上启用了显示流：

[    6.904837] imx-dwmac 30bf0000.ethernet end0: Register MEM_TYPE_PAGE_POOL RxQ-0
[    6.971593] imx-dwmac 30bf0000.ethernet end0: PHY [stmmac-0:00] driver [SMSC LAN8710/LAN8720] (irq=147)
[    6.987060] imx-dwmac 30bf0000.ethernet end0: No Safety Features support found
[    6.994331] imx-dwmac 30bf0000.ethernet end0: IEEE 1588-2008 Advanced Timestamp supported
[    7.002765] imx-dwmac 30bf0000.ethernet end0: registered PTP clock
[    7.009583] imx-dwmac 30bf0000.ethernet end0: configuring for phy/rmii link mode
[    8.601862] imx-dwmac 30bf0000.ethernet end0: Link is Up - 100Mbps/Full - flow control rx/tx
[   15.334021] samsung-dsim 32e60000.dsi: supply vddcore not found, using dummy regulator
[   15.343694] samsung-dsim 32e60000.dsi: supply vddio not found, using dummy regulator
[   15.365379] samsung-dsim 32e60000.dsi: [drm:samsung_dsim_host_attach [samsung_dsim]] Attached sn65dsi83 device (lanes:4 bpp:24 mode-flags:0x2e3)
[   15.380621] [drm] Initialized imx-lcdif 1.0.0 for 32e80000.display-controller on minor 1
[   15.522131] Console: switching to colour frame buffer device 240x45
[   15.555056] imx-lcdif 32e80000.display-controller: [drm] fb0: imx-lcdifdrmfb frame buffer device
[   15.592315] dw100 32e30000.dwe: dw100 v4l2 m2m registered as /dev/video0
[   15.601817] hantro-vpu 38300000.video-codec: registered nxp,imx8mm-vpu-g1-dec as /dev/video1
[   15.611540] hantro-vpu 38310000.video-codec: registered nxp,imx8mq-vpu-g2-dec as /dev/video2

这两轮初始化之间仅有 10 秒的随机间隙，我不明白为什么。

systemd 分析：

systemd-analyze
Startup finished in 2.034s (kernel) + 4.558s (userspace) = 6.592s 
graphical.target reached after 4.450s in userspace.

提前感谢你的帮助！

IsHacker

Asked: 2024-12-14 17:22:51 +0800 CST

是否有适用于较新 Linux 内核的非官方 NVIDIA Fermi 驱动程序？

5

由于官方的 NVIDIA 391.xx 驱动程序不支持 Linux 6.x，我被迫使用 noveau，但性能非常差。是否有适用于较新 Linux 内核的这些驱动程序的非官方版本？提前感谢您的回复。

FourierFlux

Asked: 2024-12-02 01:57:57 +0800 CST

在多处理器系统中，中断会阻止所有执行吗？

4

我读过你不应该在中断处理程序中使用阻塞系统调用。

对于单处理器系统，这是有道理的，但是对于多处理器系统，这样的阻塞操作真的会阻塞整个系统吗？还是只阻塞它所运行的处理器？

abg1984

Asked: 2024-11-27 18:20:20 +0800 CST

unregister_chrdev_region() 的实现

6

因此，我目前正在学习如何编写内核模块/设备驱动程序，并正在研究以下实现unregister_chrdev_region：

https://elixir.bootlin.com/linux/v6.12/source/fs/char_dev.c#L311

/**
 * unregister_chrdev_region() - unregister a range of device numbers
 * @from: the first in the range of numbers to unregister
 * @count: the number of device numbers to unregister
 *
 * This function will unregister a range of @count device numbers,
 * starting with @from.  The caller should normally be the one who
 * allocated those numbers in the first place...
 */
void unregister_chrdev_region(dev_t from, unsigned count)
{
    dev_t to = from + count;
    dev_t n, next;

    for (n = from; n < to; n = next) {
        next = MKDEV(MAJOR(n)+1, 0);
        if (next > to)
            next = to;
        kfree(__unregister_chrdev_region(MAJOR(n), MINOR(n), next - n));
    }
}

我不明白的是这一行的检查：

https://elixir.bootlin.com/linux/v6.12/source/fs/char_dev.c#L318

if (next > to) next = to;

据我所知，当循环变量等于上限时，循环已经中断to = from + count。什么时候我们会遇到条件的情况if (next > to)？这个条件检查的原因是什么？

Linux 内核如何知道将其堆放在哪里？

容器或 cgroupv2 中 rsync 的性能因 MEM 限制而下降

当使用 kmalloc 分配内存时，是否会返回已经建立的 PTE（页表条目）的虚拟内存地址？

如何找出 API 更改的 Linux 内核版本？

/dev/cpuset 中的文件已重命名？

如何确认内核是否正在更新 hwclock/RTC

1. 我觉得我已经确定系统时钟正在从 hwclock 更新：

2. 内核显然配置为“双向”进行时钟更新：

DRM 初始化很晚

是否有适用于较新 Linux 内核的非官方 NVIDIA Fermi 驱动程序？

在多处理器系统中，中断会阻止所有执行吗？

unregister_chrdev_region() 的实现

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

问题[linux-kernel](unix)

1. 我觉得我已经确定系统时钟正在从 hwclock 更新：

2. 内核显然配置为“双向”进行时钟更新：