我有一台 7.9 Redhat 服务器,大约有 30 个用户、64 个内核和 512 Go RAM。我有几个僵尸进程,我不知道用户到底是什么创建了这些进程,但我在阅读互联网上的内容后有一种感觉,当他们的会话被终止时,它将杀死所有僵尸进程,因为“父”进程将被终止。
所以让我们想象一下,如果一个用户在其会话期间创建大约 30 个僵尸进程,那么最多可以有 900 个僵尸进程,这只是一个近似值,因为一个用户的会话持续时间越长,僵尸进程数就越高。我是否需要监控这个数字以避免服务器崩溃或类似的情况?
我知道僵尸进程不占用任何资源(RAM、CPU 等),但这也是该值不能高于限制的证据......
我还知道有时用户会断开连接,然后清理僵尸进程,因此僵尸进程的数量可能会减少......
不,您当然不需要监视它们。
这就是简短的答案。尽管“僵尸”听起来像是某种半危险的东西,可能会入侵您的系统并造成各种麻烦,但事实并非如此。“僵尸”进程不再是一个进程,因此无法“杀死”它们(甚至 SIGKILL 也不会执行任何操作)。该进程早已死亡,所有资源都已释放。“僵尸”只是进程表中的一个占位符条目,防止进程 ID 被重用并存储死进程的退出状态。
当有人调用 PID 上的系统调用之一
wait*()
来检索退出状态(“收获”PID)时,这样的条目将被删除。这通常是父级会立即执行的操作,因此大多数僵尸只会停留几毫秒,但有时父级会由于某种原因忘记这样做,从而给您留下一个长寿的僵尸。如果父进程退出(即您的用户注销),僵尸进程将重新定位到 init 进程(PID 1,或服务于相同角色的不同进程),该进程将立即收获它看到的任何内容,清理僵尸进程。僵尸 PID 条目消耗的内存量很小(数十字节),因此在任何非嵌入式系统上都不会成为问题。您将需要数十亿个僵尸来消耗您的 RAM 的很大一部分。因此,您唯一真正担心的是,如果进程 ID 最终都被僵尸占用,则可能会耗尽进程 ID 的供应。可以通过查看和更改 PID 的当前限制
/proc/sys/kernel/pid_max
,并将其设置为至少核心数的 1024 倍或 32768,以较高者为准。您可以通过写入该文件来任意提高它,最多可达 400 万多一点。因此,如果您的系统当前设置为默认最大 65536 个 PID,并且您担心数以万计的僵尸会耗尽该数量,那么只需提高限制即可。为此,请创建一个名为
/etc/sysctl.d/somenameyoulike.conf
“包含”的文件kernel.pid_max = 1000000
(根据需要调整值)。man sysctl.d
详情请参阅。